数据收集项目总结

最新推荐文章于 2024-07-09 00:29:50 发布

润砾成珠

最新推荐文章于 2024-07-09 00:29:50 发布

阅读量974

点赞数

分类专栏： other

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011569805/article/details/10494435

版权

other 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

1.使用lucence + Heritrix对指定网址进行爬取并建立全局索引

2.首先初始化自定义StartupConfig.xml这是配置爬虫网站的模版文件，包含站点以及正则表达式解析规则（xmlBeans对其解析）

3.使用apache.commons.cli.Option提供友好的运行参数提示，并根据用户参数进行模式选择

4.按照spring quartz定时机制运行完整流程; 立即运行一次完整流程;立即运行一次爬虫流程;立即运行一次索引流程

5.只需要分析完整流程：

首先接收站点名字；从StartupConfig.xml中找到匹配的站点从而取出需要解析的url;

增量爬取，从目标目录取出恢复文件至工作目录，并删除目标目录文件

自定义Extractor

自定义Writer

并配置于conf/modules/Processor.options

Processor.options

*.heritrix.extend.CsrcExtractor|CsrcExtractor
*.heritrix.extend.CsrcWriter|CsrcWriter

竖化线后面名字与order.xml 一一对应

<newObject name="CsrcWriter" class="*.heritrix.extend.CsrcWriter">

6.luncence

KeywordManager.java 通过配置文件属性选择：从数据库读出keyword;还是从文件中读出keyword

TagManager.java 调用KeywordManager.java

IndexQuery 调用TagManager.java 根据关键字创建查询条件并返回前100条匹配的信息document

AbstractIndex 调用IndexQuery 根新 AbstractIndex 中的lucencedoc

LuceneProcessor 嗲用AbstractIndex 处理返回的lucencedoc

即建立临时索引，然后按关键字更新索引，删除临时目录

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据收集项目总结

1.使用lucence + Heritrix对指定网址进行爬取并建立全局索引2.首先初始化自定义StartupConfig.xml这是配置爬虫网站的模版文件，包含站点以及正则表达式解析规则（xmlBeans对其解析）3.使用apache.commons.cli.Option提供友好的运行参数提示，并根据用户参数进行模式选择4.按照spring quartz定时机制运行完整流程; 立即运
复制链接

扫一扫

专栏目录

润砾成珠 CSDN认证博客专家 CSDN认证企业博客

码龄11年

153: 原创

17万+: 周排名

220万+: 总排名

102万+: 访问

: 等级

3172: 积分

44: 粉丝

5: 获赞

5: 评论

8: 收藏

私信

关注

热门文章

分类专栏

hadoop 14篇
hbase 3篇
hive
sqoop
zookeeper 2篇
redis 1篇
mongod 4篇
other 10篇
python 21篇
mysql 9篇
storm 2篇
web 7篇
huson 1篇
linux 4篇
tomcat 3篇
oracle 2篇
spark 14篇
R 9篇
julia 4篇
cocos2d-x-html5 24篇
matlab 7篇
c++
scala 2篇
voltdb 2篇
oozie 1篇
hue 1篇
sentry

最新评论

Matlab 打jar包（包含外部文件）
longHARDEN: 你好，我也遇到了相同的问题，打jar包，m文件包含addpath。如果在matlab中设置路径添加后，在java调用时依然报错。请问你是怎么解决的
SimpleSkewedGroupByTest
追风筝的少年-: 博主，你好，我想请问 SimpleSkewedGroupByTest 是如何做关于Spark的测试？
cocos-js 命令行使用
A闲闲: D:/java/ndk/android-ndk-r10e/build/core/prebuilt-library.mk:45: *** Android NDK: Aborting . Stop. make.exe: Leaving directory `D:/NewFolder/ProjectAClient/Project_Android_honghu_v3/frameworks/runtime-src/proj.android' 执行命令出错，返回值：2。您好我就是执行了 Cocos run -p android 这个命令想在Android 手机上运行起来但是报了以上的错误能问一下这个怎么解决吗?
收藏网址
buyaobuyaode: http://www.wfszyf.com/
hadoop2.2+mahout-0.8
记录学习的点滴: mahout org.apache.lucene.benchmark.utils.ExtractReuters 这个就好像不支持了...很郁闷~搞了半天才知道

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。