nutch的index-writers.xml

nutch的index-writers.xml

出现在较高版本的nutch中

该文件出现在比较高的nutch版本,对于一些比较低的nutch版本中并没有这个配置文件,如:在nutch1.7中并没有这个index-writers.xml

在版本nutch1.7中对于索引的映射配置文件在solrindex-mapping.xml,该文件是和solr服务器建立索引映射的配置文件。

index-writers.xml解读

官网对该配置文件的解析:IndexWriters - NUTCH - Apache Software Foundation

目前官方支持以下索引服务的配置:

IndexerDescription
indexer-solrIndexer for a Solr server
indexer-rabbitIndexer for a RabbitMQ server
indexer-dummyIndexer usually used for debugging, it writes in a plain text file
indexer-elasticIndexer for an Elasticsearch server
indexer-elastic-restIndexer for Elasticsearch, but using Jest to connect with the REST API provided by Elasticsearch
indexer-cloudsearchIndexer for Amazon CloudSearch
indexer-csvIndexer for writing documents to a CSV file

官方提供的index-writers.xml已经提供了多个索引服务的配置,这里只介绍solr,其他的writers类似,具体看官方文档。

  <writer id="indexer_solr_1" class="org.apache.nutch.indexwriter.solr.SolrIndexWriter">
    <!--服务基础参数配置-->
    <parameters>
      <param name="type" value="http"/>
      <!--solr中core的地址-->
      <param name="url" value="http://localhost:8983/solr/nutch"/>
      <param name="collection" value=""/>
      <param name="weight.field" value=""/>
      <param name="commitSize" value="1000"/>
      <!--solr服务器登录认证(如果solr没配置登录的账号密码,默认没有)-->
      <param name="auth" value="false"/>
      <param name="username" value="username"/>
      <param name="password" value="password"/>
    </parameters>
    <mapping>
      <copy>
        <!-- <field source="content" dest="search"/> -->
        <!-- <field source="title" dest="title,search"/> -->
      </copy>
      <!--nutch中解析出来的一些字段信息重命名-->
      <rename>
        <field source="metatag.description" dest="description"/>
        <field source="metatag.keywords" dest="keywords"/>
      </rename>
      <!--映射时移除segment字段-->
      <remove>
        <field source="segment"/>
      </remove>
    </mapping>
  </writer>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值