Lucene+网络爬虫(爬iteye技术文章)+Spring+Struts2+Jquery(梁健-原创)

最新推荐文章于 2018-10-31 17:46:45 发布

liangjian103103103

最新推荐文章于 2018-10-31 17:46:45 发布

阅读量5.2k

点赞数

分类专栏：搜索引擎Lucene 网络爬虫 Java综合文章标签： lucene 网络爬虫 iteye struts spring jquery

本文链接：https://blog.csdn.net/liangjian103103103/article/details/6575300

版权

Java综合同时被 3 个专栏收录

44 篇文章 0 订阅

订阅专栏

搜索引擎Lucene

3 篇文章 0 订阅

订阅专栏

网络爬虫

1 篇文章 0 订阅

订阅专栏

最近打算做个爬虫的小例子，后来想想干脆运用的全面一点，以后就当做是个工程笔记，忘记的代码就可以再到这个工程里查查了。solr是个很不错的东西，直接用就OK。下一计划打算看看compass，是一个封装了LuceneAPI的一个框架，用起来有点类似Hibernate，值得学习一下~ 好了，先个大家分享一下这个吧，也希望大家以后做了什么小例子也能互相分享，一起进步嘛~

附件为工程，导入到MyEclipse下，按下面的配置弄一下就OK了！

搜索页：D:/Workspaces/MyEclipse7.5/httpClientHtmlParse/WebRoot/jsp/index.jsp

爬虫管理页面：D:/Workspaces/MyEclipse7.5/httpClientHtmlParse/WebRoot/jsp/manager.jsp

使用步骤：

第一步：1、选择指定类别；2、输入从第几页到第几页；3、点击“运行爬虫”按钮（由于爬多了iteye会封你IP，所以建议你爬两页就进入验证码页面输入一次验证码再继续）

第二步：建立索引，你可以对指定类别建立索引，也可以将所有类别的数据统一建立索引，建议你全都建立一遍，方便查询。

第三步：回到搜索页，输入你要查询的东西，点击搜索（此时查询的是Lucene索引库，已经不需要查数据库了）。

本工程采用UTF-8编码格式
运行环境：Jdk1.5
Web容器：Tomcat6.0
-------------------------
Tomcat6.0需要配置虚拟目录：
修改文件：D:/Program Files/Apache Software Foundation/Tomcat 6.0/conf/server.xml

在</Host>标签中加入：
<Context path="/iteye" docBase="D:/pachong/iteye_WebPage" debug="0" reloadable="true"/>

docBase的路径需与path.properties配置文件中的iteye.path相同
-------------------------

将庖丁分词器解压到一个不含空格和中文字符的目录下:

配置庖丁分词器的环境变量：

变量名：PAODING_DIC_HOME
变量值：G:/paoding-analysis-2.0.4-beta/dic（变量值是庖丁分词器解压后的路径的dic词库文件夹）
-------------------------

path.properties 里配置路径
log4j.properties 里配置日志路径
-------------------------

作者：梁健 QQ：15141739 希望能给大家带来帮助~如果有人能把那个验证码给破解了，希望能够分享给我！谢谢~
验证码入口：http://www.iteye.com/index/human_test

我的邮箱：liangjian5858@qq.com ; liangjian5858@126.com

搜索页：

liangjian103103103

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
Lucene+网络爬虫(爬iteye技术文章)+Spring+Struts2+Jquery(梁健-原创)

最近打算做个爬虫的小例子，后来想想干脆运用的全面一点，以后就当做是个工程笔记，忘记的代码就可以再到这个工程里查查了。solr是个很不错的东西，直接用就OK。下一计划打算看看compass，是一个封装了LuceneAPI的一个框架，用起来有点类似Hibernate，值得学习一下~ 好了，先个大家分享一下这个吧，也希望大家以后做了什么小例子也能互相分享，一起进步嘛~附件为工程，导入
复制链接

扫一扫

专栏目录