- 博客(4)
- 资源 (25)
- 收藏
- 关注
原创 Nutch学习——读源码 Crawl.java
我们的命令是: bin/nutch crawl url -dir data 最先进入 Crawl.java ------main方法: /* Perform complete crawling and indexing (to Solr) given a set of root urls and the -solr parameter respectivel
2014-11-11 16:04:57 1233
原创 Html Dom 基础
HTML DOM DOM:Document Object Model(文档对象模型)。 DOM 是 W3C(万维网联盟)的标准。 DOM 定义了访问 HTML 和 XML 文档的标准:“W3C 文档对象模型 (DOM) 是中立于平台和语言的接口,它允许程序和脚本动态地访问和更新文档的内容、结构和样式。” HTML DOM 定义了所有 HTML 元素的对象和属性,以及访问它们的方
2014-11-10 19:26:03 838
原创 Nutch学习——插件机制一
Nutch插件机制——特点概括 可扩展: 通过对已有接口的实现,nutch框架允许定制插件以扩展它的功能。比如,HTMParser 插件(用来解析Html 文档) 就是Parse Interface的一个实现。 灵活: 我们可以有选择的使用插件,或者开发自己的插件。在使用时,你可以有选择性的删除一些插件或者加载一些插件。 可维护: 不用担心你开发的插件对
2014-11-08 23:36:19 1020 1
Visual C++ Redistributable for Visual Studio 2015
2017-10-28
ckeditorjavaweb项目
2013-11-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人