Lucene+网络爬虫

近来方案做个爬虫的小比如,后来想想干脆运用的全部一点,今后就作为是个工程笔记,忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西,直接用就OK。下一方案方案看看compass,是一个封装了LuceneAPI的一个结构,用起来有点类似Hibernate,值得学习一下~ 好了,先个我们共享一下这个吧,也期望我们今后做了啥小比如也能互相共享,一同前进嘛~

附件为工程,导入到MyEclipse下,按下面的装备弄一下就OK了!

查找页:D:/Workspaces/MyEclipse7.5/httpClientHtmlParse/WebRoot/jsp/index.jsp

爬虫办理页面 :http://www.metabase.cn http://www.jinanwuliangye.com http://www.tongxinglong.com http://www.qclchina.com http://www.vipfuxin.com http://www.minnan888.net http://www.lcsyt.com http://lf.yunnanw.cn/ http://www.ceocbs.com http://www.yzbljp.com http://www.hyyfscl.com

运用过程:

第一步:1、挑选指定种类;2、输入从第几页到第几页;3、点击“运转爬虫”按钮 (因为爬多了iteye会封你IP,所以建议你爬两页就进入验证码页面输入一次验证码再持续)

第二步:树立索引,你可以对指定种类树立索引,也可以将一切种类的数据一致树立索引,建议你全都树立一遍,便利查询。

第三步:回到查找页,输入你要查询的东西,点击查找(此刻查询的是Lucene索引库,现已不需求查数据库了)。

本工程选用UTF-8编码格局

运转环境:Jdk1.5

Web容器:Tomcat6.0

-------------------------

Tomcat6.0需求装备虚拟目录:

修改文件:D:/Program Files/Apache Software Foundation/Tomcat 6.0/conf/server.xml

在标签中参加:

docBase的途径需与path.properties装备文件中的iteye.path一样

-------------------------

将厨子分词器解压到一个不含空格和中文字符的目录下:

装备厨子分词器的环境变量:

变量名:PAODING_DIC_HOME

变量值:G:/paoding-analysis-2.0.4-beta/dic(变量值是厨子分词器解压后的途径的dic词库文件夹)

-------------------------

path.properties 里装备途径

log4j.properties 里装备日志途径 

-------------------------

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/29653106/viewspace-1184170/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/29653106/viewspace-1184170/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值