nutch
tyj2788540
这个作者很懒,什么都没留下…
展开
-
Nutch 模块简单介绍
Nutch 的入口 是 : Crawl 。主要模块:1。Injector将 入口 url 放入 crawldb 中。并初始化 crawldb。2。Generator读取crawldb中 的url,过滤出将要抓取的url列表,叫 fetchlist ,并生成相应的 segment。3。Fetcher将 fe原创 2012-11-26 14:57:03 · 703 阅读 · 0 评论 -
Nutch 抓取一半自动停下的问题解决
用Nutch抓取的时候,问题遇到: WARN crawl.Generator: Generator: 0 records selected for fetching, exiting ... INFO crawl.Crawl: Stopping at depth=1 - no more URLs to fetch.可能问题有:1. Filter 过滤的问题,看正则写的对不对。原创 2012-11-28 14:17:08 · 1450 阅读 · 0 评论 -
Nutch 命令(官方)
Setup Nutch from binary distributionDownload a binary package (apache-nutch-1.X-bin.zip) from here.Unzip your binary Nutch package. There should be a folder apache-nutch-1.X.cd apache-转载 2012-11-15 11:04:55 · 513 阅读 · 0 评论