Nutch数据的组成(二)

 

段的组成:

每个段由5个文件夹组成,如果建立了索引的话就是六个文件夹。其中每个文件夹是一个ArrayFile对象。

包括:

文件夹名                保存内容               对应代码对象                   对应保存的值对象

content              抓取回来的网页内容,包括http头信息和其它元信息。默认情况下,protocol-httpclient 插件会做这项工作,当搜索的时候,如果你选查看缓存页面的话,就会从这里读数据。

                      contentWriter

                    net.nutch.protocol.Content

fetcher          保存的是抓取状态信息。

                 fetchWriter

                net.nutch.fetcher.FetcherOutput    这个对象由以下字段组成:版本,FetchListEntry,md5hash,ProtocolStatus,FetchDate

fetchlist          要抓取的url列表

                        fetchList

                      net.nutch.pagedb.FetchListEntry:这个对象由以下字段组成:版本,是否抓取标志,page对象,anchor的个数,每个anchor字符串

parse_data          从网页中解析出来的一些数据,例如元数据

                                parseDataWriter

                            net.nutch.parse.ParseData

parse_text          从网页中解析出来的文本数据

                             parseTextWriter

                              net.nutch.parse.ParseText

基于STM32F407,使用DFS算法实现最短迷宫路径检索,分为三种模式:1.DEBUG模式,2. 训练模式,3. 主程序模式 ,DEBUG模式主要分析bug,测量必要数据,训练模式用于DFS算法训练最短路径,并将最短路径以链表形式存储Flash, 主程序模式从Flash中….zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值