开始之前,可以参考上篇博文全量索引-数据导入并索引:
Solr增量索引配置
一、开始增量索引前的准备工作。
1、认识data-config.xml中相关属性
注意这个query只返回ID字段
注意这个只返回ID字段
最主要的是我们要知道这样一个事实:
1) last_index_time是DataImportHandler的一个默认字段,(可查看conf目录下的dataimporter.properties文件)
2) 我们可以在任何SQL中引用,该字段用于表明上次做full import或者是delta import(增量导入)的最后一次时间。
2、数据库配置注意事项
1)、如果只涉及添加与修改业务,那么数据库里只需添加一个类型为timpstamp,默认值为当前系统时间的字段 :CURRENT_TIMESTAMP(mysql)
2)、如果还涉及删除业务,那么数据里就需额外再多添加一个字段isdelete,int类型的用0,1来标识,此条记录是否被删除,当然也可以用其他字段标识,ture或false都可以
3、dataimporter.properties / {corename}_dataimporter.properties
在C:\solr-tomcat\solr\item\conf中查看是否存在文件dataimporter.properties,如果没有,则新建该文件。
这个配置文件很重要,它是用来记录索引的最新一次修改时间的,通过该配置文件可以找出新增的、修改的或者删除的记录。相关实例:
在data-config中添加如下配置信息。
query="select * from myentity WHERE isdelete=0"
deltaQuery="select ID from myentity where my_date >'${dih.last_index_time}'"
deletedPkQuery="select ID from myentity where isdelete=1"
deltaImportQuery="select * from myentity where ID='${dih.delta.id}">
说明:
注:如果有必要,则可以在schema.xml中添加一个timestamp的field
做了以上配置后,可以设置linux的cron job或者Spring 的TaskSchuduler或者Cron Job后,可以定时发url:
http://localhost:8983/solr/dataimport?command=delta-import 去做增量索引。
当然也可以用Solr自带的Scheduler来做增量索引: