nutch2.3抓取的网页使用solr建立索引

1,安装solr

2,将NUTCH_HOME/runtime/local/conf/schema-solr4.xml复制到SOLR_HOME/excample/solr/collection1/conf/下,并改名为schema.xml,在文件中添加<field name="_version_" type="long" indexed="true" stored="true"/>

3,启动hbase

如果是hbase 0.94.*的版本需要修改host

官方是这么说的:

The following /etc/hosts file works correctly for HBase 0.94.x and earlier, on Ubuntu. Use this as a template if you run into trouble.

127.0.0.1 localhost
127.0.0.1 ubuntu.ubuntu-domain ubuntu


关键是下面这条命令,就会在solr中建立索引

bin/nutch solrindex http://127.0.0.1:8983/solr/ -reindex -crawlId 6vhao

转载于:https://my.oschina.net/u/2494265/blog/524238

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值