2021-09-23

21??????????

于 2021-09-30 23:44:05 发布

阅读量66

点赞数

文章标签： big data

本文链接：https://blog.csdn.net/MyosotisLPS/article/details/120573782

版权

2021SC@SDUSC

Nutch相关分析探索综述
Nutch是由Doug Cutting发起的开源爬虫项目，在搜索引擎中负责爬取网页，同时自动维护网页的URL信息。nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前，Hadoop是nutch的一部分，从nutch V0.8.0开始，HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后，nutch就完全构建在Hadoop的基础之上了。
获取基本信息后得知，nutch主要分两个功能模块，网页爬取和爬取后的searcher。本次分析工作，我主要负责searcher方面的分析工作。
代码安装配置完成后，首先分析了项目目录结构：
bin：两个文件，一个是nutch，一个是crawl，
crawl是对nutch中的命令进行了封装，实现了一站式调用。

conf：里面保存了nutch的基本配置信息，nutch-default.xml nutch-site.xml parse-plugins.xml regex-urlfilter.txt

docs：api文档
lib：存储了nutch的依赖jar包
plugins：存储了nutch使用的插件jar包

下面是索引建立部分的准备工作
1）：需要把nutch下的schema-solr4.xml拷贝到solr中

    命令：cp /usr/local/nutch/conf/schema-solr4.xml /usr/local/solr-4.10.4/example/solr/collection1/conf

2）：删除solr中的默认配置文件schema.xml，在把刚才拷贝过去的文件该名称
cd /usr/local/solr-4.10.4/example/solr/collection1/conf
rm schema.xml
mv schema-solr4.xml schema.xml

3)：在schema.xml中添加一个字段配置

或者也可以动态指定，
例子：crawl -i -D “solr.server.url=http://192.168.1.170:8983/solr” urls crawl 1

1.启动solr

cd /usr/local/solr-4.10.4/example
java -jar start.jar

命令：crawl -i urls crawl 1

-i：表示会对爬取的数据建立索引，默认会在本机solr中建立索引，
如果使用其他服务器上的solr，需要修改nutch-default中solr.server.url的值，
建议在nutch-site.xml中进行覆盖。

3.检验

http://127.0.0.1:8983/solr/ 可以通过query 查看到content的内容

21??????????

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-09-23

Nutch相关分析探索综述Nutch是由Doug Cutting发起的开源爬虫项目，在搜索引擎中负责爬取网页，同时自动维护网页的URL信息。nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前，Hadoop是nutch的一部分，从nutch V0.8.0开始，HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后，nutch就完全构建在Hadoop的基础之上了。获取基本信息后得知，nutch主要分两个功能模块，网页爬取和爬取后的searche
复制链接

扫一扫