nutch_520-CSDN博客

原创问读nutch 1.2 解析html的插件 HtmlParser插件

分为以下几个部分： 1 解析成Dom 通过sax， DocumentFragment root; //把网页内容content转化byte byte[] contentInOctets = content.getContent(); //SAX解析抽取外部信息 InputSource input = new InputSource(new ByteArrayInputStrea

2011-03-05 00:43:00 1271

原创模板抽取思路的分析

今天看到一篇文章，关于页面转化成xml的方式，突然想到nutch的模板匹配问题，因为第一个页面，写匹配方式，及写一些与此同时过滤真的很没有效率，所以我打算，扩展nutch的htmlParser这个插件，把nutch只当作一个爬虫，而索引这块先不考虑。考虑采用自己建立solr服务器来建立索引。 方案：动态代码-->html-->转化成xml或xhtml --> XSLT提取 然后通过xslt模板来匹配需求采集的部分。这样如果有目标站点，则可以通过编

2011-03-03 00:20:00 705

转载 nutch全网爬行的底层命令

最近在研究nutch，找到了关于使用底层命令进行全网爬行的资料。 首先获得网址集，使用http://rdf.dmoz.org/rdf/ 目录下的content.example.txt 文件做测试，建立文件夹dmoz 命令：bin/nutch org.apache.nutch.tools.DmozParser content.example.txt >dmoz/urls 注射网址到crawldb数据库： 命令：bin/nutch inject c

2011-02-25 13:13:00 860

转载 nutch的一些读取命令

最近在研究nutch，整理了一下关于读取资源数据的命令。 1.查看crawldb数据库：bin/nutch readdb url/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。 查看每个url地址的详细内容，导出数据：bin/nutch readdb url/crawldb/ -dump crawldb(导出的地址) 查看具体的url，以163为例：bin/nutch readdb url/crawldb/ -url

2011-02-25 13:12:00 717

转载关于nutch1.0二次开发需要更改的东西

二次开发的时候，需要重点对Nutch的界面及界面显示数据进行适当的调整。 目前据我了解到的要修改的地方有以下几点： 1。搜索页面页头页尾log修改、选项卡乱码显示问题。 2。显示查询结果行添加查询用时 3。查询结果摘要长度修改，默认只有20个字符。 4。网页快照乱码修改，以及后面的(评分详解) (anchors) (more from news.qq.com)菜单项修改。<

2011-02-25 00:30:00 900

原创 nutch 1.2 分页处理

<%@ page session="false" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8" import="java.io.*" import="java.util.*" import="java.net.*" import="javax.servlet.http.*" import="javax.servlet.*" import="org

2011-02-25 00:29:00 1195 1

原创 nutch 1.2 分页处理

<%@ page session="false" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8" import="java.io.*" import="java.util.*" import="java.net.*" import="javax.servlet.http.*" import="javax.servlet.*" import="org.apach

2011-02-25 00:27:00 1055

原创 nutch 1.2 war的二次开发第一步，重新编写首页

nutch的首页，比较难看，实现了一些基本页面，像baidu一样。你如果像对它进行二次开发的话，你就得读一下源码了，然后进行build.xml 重新打包在tomcat里发布了，当然。这里我已经对它进行了读写哈。 nutch 里的页面，是通过xslt 里编写的，在源码src/web/style/nutch-page.xsl 编写，这里有一个xsl格式的源码。这里你应该要读懂它的基本结构，不然会build.xml失败的。所以你要一步一步的试。 <b

2011-02-23 23:54:00 2264 2

转载 nutch-1.0 的分布式查询部署

nutch-1.0 的分布式查询部署 nutch-1.0集成了hadoop的mapreduce实现分布式爬虫方式，抓取的网页及索引等都存放在HDFS上，但hdfs用于查询是不切实际的，所以建议copy到本地之后做搜索查询。但如果索引文件很多，索引数据量大，在一台机器上部署查询势必很慢，这时可以考虑分布式查询方式，将索引分散在多个机器中； 下面是分布式查询方式的部署方式： 首先定义

2011-02-23 00:15:00 1226 1

原创 nutch1.2 修改jsp页面后，想打包部署到tomcat中，有几个地方需要修改的。

nutch1.2 修改jsp页面后，想打包部署到tomcat中，有几个地方需要修改的。 其中一个地方，当然是搜索的索引路径了. nutch-site.xml <property> <name>searcher.dir</name> <value>F:/nutch/test</value> </property> <b

2011-02-23 00:14:00 1014 1

原创 nutch 1.2 从eclipse 打war包到tomcat 需要修改的地方

nutch1.2 修改jsp页面后，想打包部署到tomcat中，有几个地方需要修改的。 其中一个地方，当然是搜索的索引路径了. nutch-site.xml <property> <name>searcher.dir</name> <value>F:/nutch/test</value> </property>

2011-02-22 23:53:00 1126

转载 Nutch1.2增加插件例子

今尝试下给nutch1.2增加一个插件，于是到官网找了个例子，链接如下： http://wiki.apache.org/nutch/WritingPluginExample-0.9 这个例子实现的的是推荐网站，就是写关键字在content里，当别人搜索这个关键字时，你推荐的网站在搜索结果中排前，要实现推荐必须在你的网页上加上 view plaincopy to clipboardprint? <meta name="recommended" conte

2011-02-21 23:45:00 890

原创 nutch 1.2 增量爬取url 完成 recrawl.sh 编写

# runbot script to run the Nutch bot for crawling and re-crawling.# Usage: bin/runbot [safe]# If executed in 'safe' mode, it doesn't delete the temporary# directories generated during crawl. This might be helpful for# analysis

2011-02-21 23:41:00 1032

转载开发基于 Nutch 的集群式搜索引擎

本文首先介绍 Nutch 的背景知识，包括 Nutch 架构，爬虫和搜索器。然后以开发一个基于 Nutch 的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。在该示例中，首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站，目标网站将被部署在域名为 myNutch.com 的服务器上。然后示例说明 Nutch 爬虫如何抓取目标网站内容，产生片断和索引，并将结果存放在集群的2个节点上。最后使用 Nutch 检索器提供的 API 开发应用，为用户提供搜索接口。 简介

2011-02-21 23:39:00 747

转载 Nutch开源搜索引擎与Paoding中文分词用plugin方式集成[转]

本文是我在集成中文分词paoding时积累的经验，单独成一篇文章来重点介绍，重点需要了解的有下面几个文件，a)插件目录及插件文件 build.xml,plugin.xml b)nutch-0.9/src/plugin/build.xml c)WEB-INF/classes/nutch-site.xml 然后通过按照下面的方式来配置，执行ant package就可以搞定了，这里用ant的方式来处理整个编译发布过程。 1)在src/plugin下面加入，analysis-zh和lib-paod

2011-02-21 23:38:00 731

原创专注成就未来

曾几何时，我喜欢上了搜索，搜索给人很神秘的感觉，研究它已经有半年多了，但是还没有什么成就。我是一个电子商务开发人员，开发了不少电子商务平台，有类似于taobao那样的C2C交易平台，资金管理平台，等等。但平时没事的时候我还是喜欢研究搜索方面的东西，最近特别喜欢研究nutch方面的二次开发，对数据分析，数据挖掘也有很强的兴趣，因为它们很深邃，征服了它们给你有很大的自信。所以开这样一个博客，专门针对自己学习nutch及搜索方面的知道进行总结回顾。备注一下，可以让自己忘记的时候能回想起来，如果有好的体验，也

2011-02-21 23:21:00 660 1

nutch_520的专栏

原创问读nutch 1.2 解析html的插件 HtmlParser插件

原创模板抽取思路的分析

转载 nutch全网爬行的底层命令

转载 nutch的一些读取命令

转载关于nutch1.0二次开发需要更改的东西

原创 nutch 1.2 分页处理

原创 nutch 1.2 分页处理

原创 nutch 1.2 war的二次开发第一步，重新编写首页

转载 nutch-1.0 的分布式查询部署

原创 nutch1.2 修改jsp页面后，想打包部署到tomcat中，有几个地方需要修改的。

原创 nutch 1.2 从eclipse 打war包到tomcat 需要修改的地方

转载 Nutch1.2增加插件例子

原创 nutch 1.2 增量爬取url 完成 recrawl.sh 编写

转载开发基于 Nutch 的集群式搜索引擎

转载 Nutch开源搜索引擎与Paoding中文分词用plugin方式集成[转]

原创专注成就未来

空空如也

空空如也