Lucene+网络爬虫

最新推荐文章于 2024-06-09 23:33:54 发布

csuoz2146

最新推荐文章于 2024-06-09 23:33:54 发布

阅读量160

点赞数

文章标签：爬虫开发工具 java

近来方案做个爬虫的小比如，后来想想干脆运用的全部一点，今后就作为是个工程笔记，忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西，直接用就OK。下一方案方案看看compass，是一个封装了LuceneAPI的一个结构，用起来有点类似Hibernate，值得学习一下~ 好了，先个我们共享一下这个吧，也期望我们今后做了啥小比如也能互相共享，一同前进嘛~

附件为工程，导入到MyEclipse下，按下面的装备弄一下就OK了！

查找页：D:/Workspaces/MyEclipse7.5/httpClientHtmlParse/WebRoot/jsp/index.jsp

爬虫办理页面：http://www.metabase.cn http://www.jinanwuliangye.com http://www.tongxinglong.com http://www.qclchina.com http://www.vipfuxin.com http://www.minnan888.net http://www.lcsyt.com http://lf.yunnanw.cn/ http://www.ceocbs.com http://www.yzbljp.com http://www.hyyfscl.com

运用过程：

第一步：1、挑选指定种类；2、输入从第几页到第几页；3、点击“运转爬虫”按钮（因为爬多了iteye会封你IP，所以建议你爬两页就进入验证码页面输入一次验证码再持续）

第二步：树立索引，你可以对指定种类树立索引，也可以将一切种类的数据一致树立索引，建议你全都树立一遍，便利查询。

第三步：回到查找页，输入你要查询的东西，点击查找（此刻查询的是Lucene索引库，现已不需求查数据库了）。

本工程选用UTF-8编码格局

运转环境：Jdk1.5

Web容器：Tomcat6.0

-------------------------

Tomcat6.0需求装备虚拟目录：

修改文件：D:/Program Files/Apache Software Foundation/Tomcat 6.0/conf/server.xml

在标签中参加：

docBase的途径需与path.properties装备文件中的iteye.path一样

-------------------------

将厨子分词器解压到一个不含空格和中文字符的目录下:

装备厨子分词器的环境变量：

变量名：PAODING_DIC_HOME

变量值：G:/paoding-analysis-2.0.4-beta/dic（变量值是厨子分词器解压后的途径的dic词库文件夹）

-------------------------

path.properties 里装备途径

log4j.properties 里装备日志途径

-------------------------

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/29653106/viewspace-1184170/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/29653106/viewspace-1184170/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene+网络爬虫

近来方案做个爬虫的小比如，后来想想干脆运用的全部一点，今后就作为是个工程笔记，忘掉的代码就可以再到这个工程里查查了。solr是个很不错的东西，直接用就OK。下一方案方案看看compass，是一个封装了LuceneAPI的一...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。