java
文章平均质量分 86
kiteseeker
FIGHT AGAINST THE BAD WORLD!
展开
-
Nutch抓取插件-HTTPS协议支持
1 什么是HTTPS协议?HTTPS(全称:Hyper Text Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP的安全版。 即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。 它是一个URI scheme(抽象标识符体系),句法类同http:体系。用于安全的HTTP数据传输原创 2016-05-24 12:24:37 · 1939 阅读 · 2 评论 -
lucene学习笔记
参考: http://cloudera.iteye.com/blog/656459正文:1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像http://www.baidu.com/ 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么 要回答这个问题转载 2016-05-05 10:55:02 · 516 阅读 · 0 评论 -
Java 学习笔记
1Java Collection 结构图 2Java 运算符优先级 3 接口和抽象类接口(interface)可以说成是抽象类的一种特例,接口中的所有方法都必须是抽象的。接口中的方法定义默认为public abstract类型,接口中的成员变量类型默认为public static final。另外,接口和抽象类在方法上有区别: 1.抽象类可以有构造方法,接口中不能有构造方法。 2.抽象类中原创 2016-05-05 21:20:12 · 288 阅读 · 0 评论 -
Nutch核心流程
一、 org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造 <url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级原创 2016-08-31 11:17:53 · 316 阅读 · 0 评论