最近打算做个爬虫的小例子,后来想想干脆运用的全面一点,以后就当做是个工程笔记,忘记的代码就可以再到这个工程里查查了。solr是个很不错的东西,直接用就OK。下一计划打算看看compass,是一个封装了LuceneAPI的一个框架,用起来有点类似Hibernate,值得学习一下~ 好了,先个大家分享一下这个吧,也希望大家以后做了什么小例子也能互相分享,一起进步嘛~
附件为工程,导入到MyEclipse下,按下面的配置弄一下就OK了!
搜索页:D:/Workspaces/MyEclipse7.5/httpClientHtmlParse/WebRoot/jsp/index.jsp
爬虫管理页面:D:/Workspaces/MyEclipse7.5/httpClientHtmlParse/WebRoot/jsp/manager.jsp
使用步骤:
第一步:1、选择指定类别;2、输入从第几页到第几页;3、点击“运行爬虫”按钮 (由于爬多了iteye会封你IP,所以建议你爬两页就进入验证码页面输入一次验证码再继续)
第二步:建立索引,你可以对指定类别建立索引,也可以将所有类别的数据统一建立索引,建议你全都建立一遍,方便查询。
第三步:回到搜索页,输入你要查询的东西,点击搜索(此时查询的是Lucene索引库,已经不需要查数据库了)。
本工程采用UTF-8编码格式
运行环境:Jdk1.5
Web容器:Tomcat6.0
-------------------------
Tomcat6.0需要配置虚拟目录:
修改文件:D:/Program Files/Apache Software Foundation/Tomcat 6.0/conf/server.xml
在</Host>标签中加入:
<Context path="/iteye" docBase="D:/pachong/iteye_WebPage" debug="0" reloadable="true"/>
docBase的路径需与path.properties配置文件中的iteye.path相同
-------------------------
将庖丁分词器解压到一个不含空格和中文字符的目录下:
配置庖丁分词器的环境变量:
变量名:PAODING_DIC_HOME
变量值:G:/paoding-analysis-2.0.4-beta/dic(变量值是庖丁分词器解压后的路径的dic词库文件夹)
-------------------------
path.properties 里配置路径
log4j.properties 里配置日志路径
-------------------------
作者:梁健 QQ:15141739 希望能给大家带来帮助~如果有人能把那个验证码给破解了,希望能够分享给我!谢谢~
验证码入口:http://www.iteye.com/index/human_test
我的邮箱:liangjian5858@qq.com ; liangjian5858@126.com
![](https://img-blog.csdnimg.cn/2022010611380018557.png)
![](https://img-blog.csdnimg.cn/2022010611380082224.png)