从搜索引擎说起

推荐这本书http://book.douban.com/subject/4861766/

最近在看的书:《这就是搜索引擎 : 核心技术详解》、《儒林外史》、《了凡四训》、《资治通鉴》、《倾城之恋》。

最近在以ES为基础在年前写一个搜索引擎,希望能对搜索引擎的整个架构(自己在做搜索当然必须了解),流程有个整体的了解和把握。首先搭建ES搜索引擎,引入IK中文分词器进行分词,把它以插件的形式集成到搜索引擎中。

配置elasticsearch.yml的时候有一个坑,注意缩进!否则配置不生效。

参照http://my.oschina.net/xiaohui249/blog/228748进行配置。

配置好后安装IK,如果使用IK最好下载es2.0,IK支持不了最新的es。

配置elasticsearch.xml,参照http://www.tuicool.com/articles/mMZfu2。

  安装IK的资料网上挺多的,在此不赘述了。

  上线也挺麻烦的,以后要规范自己的开发流程,总结一些经验和教训,注意版本迭代和问题回溯,理解每一段自己写的代码,业务不清的一定要问清楚,重要的事说三遍,注释!注释!注释!一定要写,否则隔一段时间自己都忘了代码的意义。

使用pip安装libffi libffi-devel,安装Twisted,w3lib,scrapy

安装成功后,duang!duang!duang!

[root@iZ2582ih5oqZ soft]# scrapy
Scrapy 1.0.3 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  commands
  fetch         Fetch a URL using the Scrapy downloader
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy <command> -h" to see more info about a command

接下来就是开始使用scrapy开发我的分布式爬虫了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值