- 在CDH下安装的solr,要使用solrctl创建Core 生成位置:/var/lib/solr
- 个人用户没有root权限,不能在公有目录下创建文件夹。该问题出现在创建Core的过程中
- 复制nutch/conf/schema 到Core的conf目录下
- nutch2.3.1和solr不是覆盖schema.xml就能使用,和1.x版本不同,需要在nutch-site中添加indexer-solr插件!
- 完成1,3,4。执行crawl seed crawlID solrCore 1 命令,直接将抓取的数据放入solr中
crawl 执行nutch脚本
seed 种子文件
crawlID 存放的数据库
solrCore solr地址下的Core 例:http://localhost:8983/solr/a1 a1为已创建的Core
参考:
如何在CDH中使用Solr对HDFS中的JSON数据建立全文索引https://cloud.tencent.com/developer/article/1158299
CDH-5.14安装solr
https://blog.csdn.net/seashouwang/article/details/80886981