nutch学习

首先svn检查nutch项目:svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.6/

检出后的项目名叫release-1.6, 进入后用输入ant命令,来下载项目依赖的jar包,下载完成之后会多出Build和runtime文件夹

运行第一个nutch任务:1.新建一个文件夹urls,新建一个url文件并且输入一个根地址 http://www.xywy.com

                                         2.运行nutch命令,nohup bin/nutch crawl urls -dir data -depth 3 -threads 10 &

                                         3.运行完成之后在data目录下生成三个文件夹,crawdb,linkdb,segments

                                                 crawdb文件中存放的是爬去过程中抓取过的所有的url

                                                 segments文件夹下存放的是每运行一次generate,fetch都会生成一个以时间命令的文件夹

                                                 用nutch命令可以查看crawdb中那个url的数量:bin/nutch readdb data/crawldb/ -stats


Nutch命令中的readdb命令:

bin/nutch  readdb  data/crawldb/  -stats 查看crawldb目录下的url的数据情况

bin/nutch readdb data/crawldb/ -dump data/crawldb/crawldb_dump 导出所有url

bin/nutch readdb data/crawldb/ -topN 10 data/crawldb/crawdb_topN  拿出分数排在前10的url记录


Nutch命令中readseg命令

readseg -dump data/segments/20141204094346/ data/segments/20141204094346_dump -nocontent -nofetch -nogenerate -noparse -noparsedata -noparsetext     (-dump 导出文件)


Nutch命令中的readlinkdb命令

bin/nutch readlinkdb data/linkdb -dump data/linkdb_dump  导出linkdb的内容

bin/nutch readlinkdb data/linkdb -url http://club.xywy.com/    查看特定url的关联url


=====================================================================================================


深入分析nutch的抓取周期

  generate --> fetch --> parse --> updatedb

parse之后产生的文件夹为content、crawl_fetch、crawl_generate文件夹

执行invertlinks命令后会产生linkdb目录


parsechecker命令,该命令是用来解析一个url地址,可以通过他来查看一个url的所有输出url.


bin/nutch domainstats data2/crawldb/current/ host host  用来查看已经爬取到的url中有多少host.(可以查看host,domain,suffix,tld)。


bin/nutch webgraph -segmentDir data2/segments -webgraphdb data2/webgraphdb 根据segments生产webgraphdb文件夹

bin/nutch nodedumper -inlinks -output inlinks_node -top 1 -webgraphdb data2/webgraphdb 用nodedumper命令对webgraphdb按inlinks排序,并且查看分值。(可以根据outlinks排序,也可以根据score排序)










  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
城市应急指挥系统是智慧城市建设的重要组成部分,旨在提高城市对突发事件的预防和处置能力。系统背景源于自然灾害和事故灾难频发,如汶川地震和日本大地震等,这些事件造成了巨大的人员伤亡和财产损失。随着城市化进程的加快,应急信息化建设面临信息资源分散、管理标准不统一等问题,需要通过统筹管理和技术创新来解决。 系统的设计思路是通过先进的技术手段,如物联网、射频识别、卫星定位等,构建一个具有强大信息感知和通信能力的网络和平台。这将促进不同部门和层次之间的信息共享、交流和整合,提高城市资源的利用效率,满足城市对各种信息的获取和使用需求。在“十二五”期间,应急信息化工作将依托这些技术,实现动态监控、风险管理、预警以及统一指挥调度。 应急指挥系统的建设目标是实现快速有效的应对各种突发事件,保障人民生命财产安全,减少社会危害和经济损失。系统将包括预测预警、模拟演练、辅助决策、态势分析等功能,以及应急值守、预案管理、GIS应用等基本应用。此外,还包括支撑平台的建设,如接警中心、视频会议、统一通信等基础设施。 系统的实施将涉及到应急网络建设、应急指挥、视频监控、卫星通信等多个方面。通过高度集成的系统,建立统一的信息接收和处理平台,实现多渠道接入和融合指挥调度。此外,还包括应急指挥中心基础平台建设、固定和移动应急指挥通信系统建设,以及应急队伍建设,确保能够迅速响应并有效处置各类突发事件。 项目的意义在于,它不仅是提升灾害监测预报水平和预警能力的重要科技支撑,也是实现预防和减轻重大灾害和事故损失的关键。通过实施城市应急指挥系统,可以加强社会管理和公共服务,构建和谐社会,为打造平安城市提供坚实的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值