nutch
文章平均质量分 86
kiteseeker
FIGHT AGAINST THE BAD WORLD!
展开
-
Nutch抓取插件-HTTPS协议支持
1 什么是HTTPS协议?HTTPS(全称:Hyper Text Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。 即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。 它是一个URI scheme(抽象标识符体系),句法类同http:体系。用于安全的HTTP数据传输原创 2016-05-24 12:24:37 · 1939 阅读 · 2 评论 -
Nutch的Hadoop方式爬取效率优化
下面这些是潜在的影响爬取效率的内容(官方资料翻译):1)DNS设置 2)你的爬虫数量,太多或太少 3)带宽限制 4)每一主机的线程数 5)要抓取的urls的分配不均匀 6) robots.txt中的高爬取延时(通常和urls的分配不均匀同时出现) 7)有很多比较慢的网页(通常和分配不均匀同时出现) 8)要下载太多的内容(PDF,大的html页面,通常和分配不均匀同时出现) 9)其它转载 2016-07-18 09:36:56 · 372 阅读 · 0 评论 -
Nutch核心流程
一、 org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造 <url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级原创 2016-08-31 11:17:53 · 316 阅读 · 0 评论