Nutch(分布式爬虫) & Lucene
Nutch(分布式爬虫) & Lucene
涂作权的博客
To do what I want to do!
展开
-
4.Lucene3.案例介绍,创建索引,查询等操作验证
案例:Article.javapackage cn.toto.lucene.quickstart; publicclassArticle { privateintid; private Stringtitle; priva原创 2014-12-07 23:46:19 · 1337 阅读 · 0 评论 -
3.Lucene3.x API分析,Director 索引操作目录,Document,分词器
1 Lucene卡发包结构分析包名功能org.apache.lucene.analysisAnalysis提供自带的各种Analyzerorg.apache.lucene.collation包含collationKey原创 2014-12-07 23:44:11 · 1697 阅读 · 0 评论 -
2.Lucene3.6.2包介绍,第一个Lucene案例介绍,查看索引信息的工具lukeall介绍,Luke查看的索引库内容,索引查找过程
1 Lucen目录介绍2 lucene-core-3.6.2.jar是lucene开发核心jar包 contrib 目录存放,包含一些扩展jar包3 案例建立第一个Lucene项目:lucene3_day1 (1)需要先将数据转换成为Document对象,每一个数据信息转换成为Field(String name原创 2014-12-07 23:39:52 · 4112 阅读 · 0 评论 -
1.搜索引擎的历史,搜索引擎起步,发展,繁荣,搜索引擎的原理,搜索技术用途,信息检索过程,倒排索引,什么是Lucene,Lucene快速入门
一:1 搜索引擎的历史萌芽:Archie、GopherArchie:搜索FTP服务器上的文件Gopher:索引网页 2 起步:Robot(网络机器人)的出现与spider(网络爬虫)Robot基于网络的,可以执行特定任务的程序Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自原创 2014-12-07 23:28:48 · 1898 阅读 · 0 评论 -
Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)4
Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)3Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)4原创 2012-12-15 10:03:01 · 2373 阅读 · 0 评论 -
Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)3
前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛。但不能保证完全没有错误,如有发现希望大家指正。目录:Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1Cygwin,Nutch安装配置原创 2012-12-15 09:56:21 · 2406 阅读 · 2 评论 -
Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)2
前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛。但不能保证完全没有错误,如有发现希望大家指正。目录:Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1Cygwin,Nutch安装配置,检验是原创 2012-12-15 09:49:36 · 4192 阅读 · 2 评论 -
Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1
前言:作者(守望者MS)在实际搭建并开发Nutch的过程中参阅很多中文资料,但内容并不详尽且有错误,于是在此记录个人实战过程,纠正一些文章错误,以详细的过程展现一次简单的二次开发流程,为初学者降低门槛。但不能保证完全没有错误,如有发现希望大家指正。目录:Cygwin,Nutch安装配置,检验是否正确(对网友守望者博客的修改---在此感谢守望者)1Cygwin,Nutch安装配置,检原创 2012-12-15 09:30:05 · 2046 阅读 · 0 评论 -
nutch,solr,安装配置,1KAnalyzer,
第1章引言1.1nutch和solrNutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Solr拥有像 web-services API的独立的企业级搜索服务器。用 XML通过 HTTP向它添加文档(称为做索引),通过HTTP 查询返回XML 结果。1.2研究nutch的原因可能有的朋友会有疑问,我们转载 2012-12-15 09:10:19 · 2013 阅读 · 0 评论 -
爬虫技术
1、scrapy(python爬虫) 2、pyspider(python爬虫) 3、Crawler4j(java单机爬虫) 4、WebMagic(java单机爬虫) 5、WebCollecto(java单机爬虫) 6、Heritrix(java爬虫)原创 2017-10-06 12:37:50 · 12056 阅读 · 1 评论