自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 问读nutch 1.2 解析html的插件 HtmlParser插件

<br />分为以下几个部分:<br /> <br />1 解析成Dom 通过sax,<br />DocumentFragment root;<br />//把网页内容content转化byte<br />byte[] contentInOctets = content.getContent();<br /> <br />//SAX解析抽取外部信息<br />            InputSource input = new InputSource(new ByteArrayInputStrea

2011-03-05 00:43:00 1268

原创 模板抽取思路的分析

<br />今天看到一篇文章,关于页面转化成xml的方式,突然想到nutch的模板匹配问题,因为第一个页面,写匹配方式,及写一些与此同时过滤真的很没有效率,所以我打算,扩展nutch的htmlParser这个插件,把nutch只当作一个爬虫,而索引这块先不考虑。考虑采用自己建立solr服务器来建立索引。<br /> <br />方案:动态代码-->html-->转化成xml或xhtml --> XSLT提取 <br /> <br />然后通过xslt模板来匹配需求采集的部分。这样如果有目标站点,则可以通过编

2011-03-03 00:20:00 702

转载 nutch全网爬行的底层命令

<br />最近在研究nutch,找到了关于使用底层命令进行全网爬行的资料。<br /> 首先获得网址集,使用http://rdf.dmoz.org/rdf/ 目录下的content.example.txt 文件做测试,建立文件夹dmoz<br /> 命令:bin/nutch org.apache.nutch.tools.DmozParser content.example.txt >dmoz/urls<br /> 注射网址到crawldb数据库:<br /> 命令:bin/nutch inject c

2011-02-25 13:13:00 858

转载 nutch的一些读取命令

<br />最近在研究nutch,整理了一下关于读取资源数据的命令。<br />1.查看crawldb数据库:bin/nutch readdb url/crawldb/ -stats     这个命令可以查看url地址总数和它的状态及评分。<br /> 查看每个url地址的详细内容,导出数据:bin/nutch readdb url/crawldb/  -dump crawldb(导出的地址)<br /> 查看具体的url,以163为例:bin/nutch  readdb url/crawldb/ -url

2011-02-25 13:12:00 713

转载 关于nutch1.0二次开发需要更改的东西

<br />二次开发的时候,需要重点对Nutch的界面及界面显示数据进行适当的调整。<br /><br />目前据我了解到的要修改的地方有以下几点:<br /><br />1。搜索页面页头页尾log修改、选项卡乱码显示问题。<br />2。显示查询结果行   添加查询用时<br />3。查询结果摘要长度修改,默认只有20个字符。<br />4。网页快照乱码修改,以及后面的(评分详解) (anchors) (more from news.qq.com)菜单项修改。<

2011-02-25 00:30:00 898

原创 nutch 1.2 分页处理

<br /><%@ page session="false" contentType="text/html; charset=UTF-8"<br />    pageEncoding="UTF-8" import="java.io.*" import="java.util.*"<br />    import="java.net.*" import="javax.servlet.http.*"<br />    import="javax.servlet.*" import="org

2011-02-25 00:29:00 1187 1

原创 nutch 1.2 分页处理

<br /><%@ page session="false" contentType="text/html; charset=UTF-8"<br />    pageEncoding="UTF-8" import="java.io.*" import="java.util.*"<br />    import="java.net.*" import="javax.servlet.http.*"<br />    import="javax.servlet.*" import="org.apach

2011-02-25 00:27:00 1054

原创 nutch 1.2 war的二次开发 第一步,重新编写首页

<br />    nutch的首页,比较难看,实现了一些基本页面,像baidu一样。你如果像对它进行二次开发的话,你就得读一下源码了,然后进行build.xml 重新打包在tomcat里发布了,当然。这里我已经对它进行了读写哈。<br /> <br />    nutch 里的页面,是通过xslt 里编写的,在源码src/web/style/nutch-page.xsl 编写,这里有一个xsl格式的源码。这里你应该要读懂它的基本结构,不然会build.xml失败的。所以你要一步一步的试。<br /> <b

2011-02-23 23:54:00 2260 2

转载 nutch-1.0 的分布式查询部署

<br />nutch-1.0 的分布式查询部署<br /><br />    nutch-1.0集成了hadoop的mapreduce实现分布式爬虫方式,抓取的网页及索引等都存放在HDFS上,但hdfs用于查询是不切实际的,所以建议copy到本地之后做搜索查询。但如果索引文件很多,索引数据量大,在一台机器上部署查询势必很慢,这时可以考虑分布式查询方式,将索引分散在多个机器中;<br /><br />下面是分布式查询方式的部署方式:<br /><br />首先定义

2011-02-23 00:15:00 1222 1

原创 nutch1.2 修改jsp页面后,想打包部署到tomcat中,有几个地方需要修改的。

<br />    nutch1.2 修改jsp页面后,想打包部署到tomcat中,有几个地方需要修改的。<br /> <br />    其中一个地方,当然是搜索的索引路径了.<br />   nutch-site.xml<br />     <property><br />        <name>searcher.dir</name><br />        <value>F:/nutch/test</value><br />    </property><br /> <b

2011-02-23 00:14:00 1013 1

原创 nutch 1.2 从eclipse 打war包到tomcat 需要修改的地方

<br />    nutch1.2 修改jsp页面后,想打包部署到tomcat中,有几个地方需要修改的。<br /> <br />    其中一个地方,当然是搜索的索引路径了.<br />   nutch-site.xml<br />     <property><br />        <name>searcher.dir</name><br />        <value>F:/nutch/test</value><br />    </property><br /> <br />  

2011-02-22 23:53:00 1124

转载 Nutch1.2增加插件例子

<br />今尝试下给nutch1.2增加一个插件,于是到官网找了个例子,链接如下:<br />http://wiki.apache.org/nutch/WritingPluginExample-0.9<br />这个例子实现的的是推荐网站,就是写关键字在content里,当别人搜索这个关键字时,你推荐的网站在搜索结果中排前,要实现推荐必须在你的网页上加上<br />view plaincopy to clipboardprint?<br /><meta name="recommended" conte

2011-02-21 23:45:00 886

原创 nutch 1.2 增量爬取url 完成 recrawl.sh 编写

# runbot script to run the Nutch bot for crawling and re-crawling.# Usage: bin/runbot [safe]#        If executed in 'safe' mode, it doesn't delete the temporary#        directories generated during crawl. This might be helpful for#        analysis

2011-02-21 23:41:00 1029

转载 开发基于 Nutch 的集群式搜索引擎

本文首先介绍 Nutch 的背景知识,包括 Nutch 架构,爬虫和搜索器。然后以开发一个基于 Nutch 的实际应用为例向读者展示如何使用 Nutch 开发自己的搜索引擎。在该示例中,首先带领读者开发一个作为 Nutch 爬虫抓取的目标网站,目标网站将被部署在域名为 myNutch.com 的服务器上。然后示例说明 Nutch 爬虫如何抓取目标网站内容,产生片断和索引,并将结果存放在集群的2个节点上。最后使用 Nutch 检索器提供的 API 开发应用,为用户提供搜索接口。<br />简介

2011-02-21 23:39:00 744

转载 Nutch开源搜索引擎与Paoding中文分词用plugin方式集成[转]

本文是我在集成中文分词paoding时积累的经验,单独成一篇文章来重点介绍,重点需要了解的有下面几个文件,a)插件目录及插件文件 build.xml,plugin.xml b)nutch-0.9/src/plugin/build.xml  c)WEB-INF/classes/nutch-site.xml 然后通过按照下面的方式来配置,执行ant package就可以搞定了,这里用ant的方式来处理整个编译发布过程。 1)在src/plugin下面加入,analysis-zh和lib-paod

2011-02-21 23:38:00 730

原创 专注成就未来

   曾几何时,我喜欢上了搜索,搜索给人很神秘的感觉,研究它已经有半年多了,但是还没有什么成就。我是一个电子商务开发人员,开发了不少电子商务平台,有类似于taobao那样的C2C交易平台,资金管理平台,等等。但平时没事的时候我还是喜欢研究搜索方面的东西,最近特别喜欢研究nutch方面的二次开发,对数据分析,数据挖掘也有很强的兴趣,因为它们很深邃,征服了它们给你有很大的自信。所以开这样一个博客,专门针对自己学习nutch及搜索方面的知道进行总结回顾。备注一下,可以让自己忘记的时候能回想起来,如果有好的体验,也

2011-02-21 23:21:00 654 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除