NUTCH
睿智的河水
把工作和生活当成是打怪升级。
展开
-
爬虫 —— 学习笔记
爬虫的主要功能是从互联网上抓取网页,是搜索引擎的重要组成部分。 图的遍历有两种方式:深度优先和广度优先遍历,爬虫使用的一般是广度优先。原创 2015-06-20 18:56:27 · 528 阅读 · 0 评论 -
爬虫 —— 布隆过滤器算法(Bloom Filter)
通过一个Hash函数将一个元素映射成一个位阵列(Bit Array)中的一个点原创 2015-06-20 20:50:56 · 770 阅读 · 0 评论 -
Python爬虫初步
初步实现网页抓取这里写代码片功能读取网页con = urllib.urlopen('网址链接').read()在网址链接所指向的页面找到要找的内容找到artitle所在的位置,返回的是一个整数,titlec那里的17和10,是将选取的位置向后移动17位,向前移动10位title_start = conn.find(r'artititle">') title_end = conn.find(r'</'原创 2015-07-12 10:05:24 · 797 阅读 · 0 评论 -
Nutch 快速入门(Nutch 2.2.1)
原文:http://cn.soulmachine.me/blog/20140201/ Nutch 2.x 与 Nutch 1.x 相比,剥离出了存储层,放到了gora中,可以使用多种数据库,例如HBase, Cassandra, MySql来存储数据了。Nutch 1.7 则是把数据直接存储在HDFS上。 1. 安装并运行HBase 为了简单起见,使用Standalo转载 2015-09-17 15:32:56 · 1336 阅读 · 0 评论 -
nutch源代码阅读心得
原文地址http://www.javaeye.com/topic/570440 主要类分析: 一、 org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造,在构造过程中给CrawlD转载 2015-09-17 20:49:28 · 512 阅读 · 0 评论 -
『爬虫问题解决』(一)nutch异常
Nutch在eclipse中编译的时候出现了异常InjectorJob: starting at 2015-09-23 10:20:55 InjectorJob: Injecting urlDir: /root/urls InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.原创 2015-09-23 10:40:52 · 2123 阅读 · 1 评论 -
Nutch技术手册——AboutPlugin
Nutch’s plugin system is based on the one used in Eclipse 2.x. Plugins are central to how Nutch works. All of the parsing, indexing and searching that Nutch does is actually accomplished by various plu翻译 2015-09-24 10:39:36 · 875 阅读 · 0 评论