![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Nutch
jinming
这个作者很懒,什么都没留下…
展开
-
hadoop中Configuration获取配置信息
Configuration 的属性: private boolean quietmode = true;//用于设置加载配置的模式,解析配置文件的过程中,不输出日志信息,就这么简单。 private ArrayList resources = new ArrayList();/*resources 存放的是配置信息对象,可以为url,classpath,path,input原创 2013-03-03 17:32:07 · 3156 阅读 · 0 评论 -
solrj操作solr
solrj的使用 首先配置好tomcat和solr(solr3.6) http://blog.csdn.net/dengsilinming/article/details/7759426我在eclipse中建了一个工程,刚开始时一直报错,缺少类包,把下面的jar包找全后并添加到工程中去。apache-solr-core-3.6.1.jarapache-solr-solrj-3.6原创 2013-03-09 18:46:42 · 817 阅读 · 0 评论 -
eclipse运行nutch-1.7
1、首先在eclipse上安装三个插件,使eclipse能够从svn获取nutch源代码 (1) Subclipse (2) IvyDE (3) m2e 三个插件安装方法: eclipse>>help>>Eclipse Marketplace>>在search find框输入插件名称>>原创 2013-02-28 07:07:54 · 1198 阅读 · 1 评论 -
读取Nutch抓取文件中的Segments中Parse_Text的内容
有时侯非常需要想知道nutch抓取网页后对html解析情况,最常用的是在终端使用dump或者readseg命令,但是这样做的话也很是不方便。在nutch中org.apache.nutch.searcher包中NutchBean类中main找到了一点头绪,main方法中的代码如下:public static void main(String[] args) throws Exception {原创 2013-04-09 20:58:33 · 976 阅读 · 0 评论