- 博客(4)
- 资源 (13)
- 收藏
- 关注
原创 Nutch抓取源码分析之Injector类
(1) 将URL集合进行格式化和过滤,消除其中的非法URL,并设定URL状态(UNFETCHED),按照一定方法进行初始化分值;(2) 将URL进行合并,消除重复的URL入口;(3) 将URL及其状态、分值存入crawldb数据库,与原数据库中重复的则删除旧的,更换新的。inject方法public void inject(Path crawlDb, Path urlD
2012-01-30 15:16:19 1454
原创 Nutch抓取源码分析之Crawl类
1、初始化一个Configuration实例设置抓取工作配置;2、设置一些默认抓取工作参数,比如进程数threads、抓取深度depth、抓取网页数量topN;3、创建抓取工作抓取到的网页文件的存放目录(crawldb、linkdb、segments、indexes、index),用来存放原生网页,以及网页解析出的文本内容及其其它相关数据;4、在抓取工作及其索引过程中,这通过初始化一些
2012-01-30 15:09:53 2796
原创 成长过程-2012
恐怖的2012就在眼前,都说是世界末日,在末日到来之前先把今年要办的事情列一下,今年要做的三件事:(1)结婚。 (2)结婚旅游。(3)通过北航的在职研究生考试。2012年1月,回到茶陵过年,一家子人其乐融融。感慨时间的飞快,父母都渐渐老去。2012年2月,去菜百市场买了结婚的钻戒和项链,消费2W人民币。2012年2月,买了电动车,消费人民币2400.2012年3月,四维数据更新组流
2012-01-28 22:52:29 2544
原创 unicode和汉字互转
Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码(定长码),也是一种前缀码。它可以用来表示Unicode标准中的任何字符 /** *
2012-01-06 13:22:22 3779
Lucene研究,Lucene 读书笔记
2011-08-17
Java 操作World
2010-07-29
Java 调用C/C++程序
2010-07-29
effective java
2008-11-05
JMeter 压力测试详解PPT
2008-09-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人