Nutch开发
文章平均质量分 85
Nutch爬虫开发
鸭梨的药丸哥
文耀
展开
-
Nutch 使用metadata plugin捕获页面中的meta标签数据
Nutch 使用metadata plugin捕获页面中的meta标签数据 添加index-metadata和parse-metatags 要使用Nutch的插件,就需要在conf/nutch-site.xml中指定要使用的插件,插件的选取可以使用正则匹配去选取的,插件的nutch的根目录下的apache-nutch-x.x/plugins文件夹中。 index-(basic|anchor|metadata)这句包含了index-metadata,index-anchor,index-basic。 pars原创 2022-01-02 23:43:02 · 316 阅读 · 0 评论 -
Nutch开发(三)
Nutch开发(三) 文章目录Nutch开发(三)开发环境1.Nutch url过滤2.示例3.在Solr建立index关于solr字段的配置4.关于Nutch plugin5.关于Nutch的默认配置信息6.使用metadata plugin7.Nutch2.4 存储方式配置 开发环境 Linux,Ubuntu20.04LST IDEA Nutch1.18 Solr8.11 转载请声明出处!!!By 鸭梨的药丸哥 1.Nutch url过滤 Nutch的url过滤配置主要放在regex-urlfilt原创 2022-02-16 14:11:24 · 613 阅读 · 0 评论 -
nutch开发(六)
nutch开发(六) 文章目录nutch开发(六)1.nutch1.18整合solr-8.11.01.1 配置index-writers.xml文件1.2 solr core字段的配置1.3 solr配置Ik分词器1.4 nutch metatags plugs插件修改配置2.测试自定义的插件是否运行成功运行parserchecker2.1 IDEA创建启动2.2 运行效果对等2.3 解析结果分析运行IndexChecker2.4 IDEA创建启动2.5 运行效果对等2.6 index过滤结果分析3.修改抓原创 2022-02-17 17:54:20 · 613 阅读 · 0 评论 -
Nutch开发(四)
Nutch开发(四) 文章目录Nutch开发(四)开发环境1.Nutch插件设计介绍2.解读插件目录结构3. build.xml4. ivy.xml5. plugin.xml6. 解读parse-html插件HtmlParsersetConf(Configuration conf)parse(InputSource input)getParse(Content content)7.解读parse-metatags插件MetaTagsParserfilter方法addIndexedMetatags方法meta原创 2022-02-16 17:50:46 · 655 阅读 · 0 评论 -
nutch开发(五)
nutch开发(五) 开发环境 Linux,Ubuntu20.04LST IDEA Nutch1.18 Solr8.11 1.开发插件准备 在源码目录src/plugin目录下创建插件工程目录 编写build.xml,ivy.xml,plugin.xml工程配置文件 编写插件类BlogParser,实现HtmlParseFilter扩展点 2.编写build.xml 因为我会使用到一些parse-html插件中的工具,所以我导入parse-html插件依赖 <?xml version="1.0原创 2022-02-17 00:21:38 · 326 阅读 · 0 评论 -
Nutch开发(一)
Nutch开发和使用教程原创 2022-01-21 17:47:03 · 1390 阅读 · 0 评论 -
nutch的index-writers.xml
nutch的index-writers.xml 出现在较高版本的nutch中 该文件出现在比较高的nutch版本,对于一些比较低的nutch版本中并没有这个配置文件,如:在nutch1.7中并没有这个index-writers.xml。 在版本nutch1.7中对于索引的映射配置文件在solrindex-mapping.xml,该文件是和solr服务器建立索引映射的配置文件。 index-writers.xml解读 官网对该配置文件的解析:IndexWriters - NUTCH - Apache Soft原创 2022-01-06 18:45:15 · 691 阅读 · 0 评论 -
Nutch开发(七)
Nutch开发(七) 实现一个迷你的博客搜索引擎 网上有很多nutch制作搜索引擎的文章,但是他们使用的nutch都是十分老的版本,如:nutch1.2,我们也知道nutch发展到现在已经出来很多版本,就我现在使用的nutch1.18版本早就吧nutch的全文索引搜索的功能独立出去了。 所以我们现在使用nutch+slor做一个仿造必应的迷你的博客搜索引擎。 准备工作 下载一个solr8.11 下载一个nutch1.18 创建一个maven工程 创建一个vue3工程 使用solrJ 虽然有spring原创 2022-02-18 03:01:39 · 355 阅读 · 0 评论 -
nutch开发(二)
nutch开发(二) 文章目录nutch开发(二)开发环境1.爬取后生成的目录结构crawldblinkdbsegments2.阅读TestCrawlDbMergercreateCrawlDb读取crawldb3.关于索引的建立4.创建一个一步式的爬虫启动类创建启动类关于如何配置solr服务器的位置5.Crawler部分代码讲解核心类核心函数 开发环境 Linux,Ubuntu20.04LST IDEA Nutch1.18 Solr8.11 转载请声明出处!!!By 鸭梨的药丸哥 1.爬取后生成的目录结原创 2022-02-16 11:39:20 · 932 阅读 · 0 评论 -
Nutch2.4 存储方式配置
Nutch2.x 存储方式配置 Nutch2.x存储映射技术Gora 在Nutch2.x只后,Nutch存储映射使用apache的Gora(Gora是一个开源的ORM框架),为了了解Gora是个什么东西,我就从网上随便搜了一些Gora框架的介绍。 Gora就是一个大数据的表示与持久化框架,它有如下特点 数据持久化:它可以对列数据进行持久化,如HBase,Cassandra,Hypertable; key-value数据进行持久化,如Voldermort,Redis等,SQL数据库进行持久化,如MySQ原创 2022-01-06 18:49:40 · 1200 阅读 · 0 评论