Nutch index源代码解析二)

最新推荐文章于 2024-09-05 12:56:36 发布

kegan1

最新推荐文章于 2024-09-05 12:56:36 发布

阅读量113

点赞数

分类专栏：大数据处理研究文章标签： Ntuch solr hadoop 爬虫

大数据处理研究专栏收录该内容

2 篇文章 0 订阅

订阅专栏

接着上篇文档~~~~~

上篇文章写到，Nutch采用一个MR对爬取下来的文档进行清洗和封装成一个action列表。

接下来介绍怎么爬取下来的数据如何推送给solr。

----------------------------------------------------华丽的分割线---------------------------------------------

Ntuch自定义了一个 IndexerOutputFormat，这个类继承于FileOutputFormat Override getRecordWriter方法

代码如下：

public class IndexerOutputFormat extends FileOutputFormat<Text, NutchIndexAction> {

@Override

public RecordWriter<Text, NutchIndexAction> getRecordWriter(FileSystem ignored,

JobConf job, String name, Progressable progress) throws IOException {

...

}

方法里面调用Nutch自定义的一个接口NutchIndexWriter，我们看下他的一个实现类SolrWriter，我们主要看下他的close方法，代码如下：

public void close() throws IOException {

try {

if (!inputDocs.isEmpty()) {

LOG.info("Indexing " + Integer.toString(inputDocs.size()) + " documents");

if (numDeletes > 0) {

LOG.info("Deleting " + Integer.toString(numDeletes) + " documents");

}

UpdateRequest req = new UpdateRequest();

req.add(inputDocs);

req.setParams(params);

req.process(solr);

inputDocs.clear();

}

// solr.commit();

} catch (final SolrServerException e) {

throw makeIOException(e);

}

在关闭的时候，Nutch会将封装好的数据采用基于http的POST的方法发送一个请求数据包给solr的服务器，solr.commit();这个方法在前面一篇文章中解释有些偏差，solr的整个事务都是在solr服务器端的，这跟以前的的事务有所区别，而这个方法就是再发送一个请求，要求提交当前的事务。

至于之前索引的增删查改也在这个类中实现，如想知道详情，可查看这个类实现。

至此，Nutch的整个index流程基本完成了。

由于时间仓促只是介绍了大概流程，如想了解其中一些细节问题，如有兴趣可以留言。或者发站内信给我。

第一次写，欢迎留言批评~~~~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Nutch index源代码解析二)

接着上篇文档~~~~~上篇文章写到，Nutch采用一个MR对爬取下来的文档进行清洗和封装成一个action列表。接下来介绍怎么爬取下来的数据如何推送给solr。----------------------------------------------------华丽的分割线---------------------------------------------Ntuch自定义...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。