1) 将mysql-connector-java-5.1.26.jar放进solr-5.5.0/dist
2)solr-5.5.0/server/solr/core1/conf/solrconfig.xml 配置:
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimp ort.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />
<lib dir="${solr.install.dir:../../../..}/dist/" regex="mysql-connector-java-.*\.jar" />
3) 在solr-5.5.0/server/solr/core1/conf/ 目录下创建data-config.xml, 内容如下:
假设Mysql的数据库用户名密码是root/password,假设已经在mysql中创建了数据库"demo_db", 表"demo_tbl",字段如下:
CREATE TABLE `demo_tbl` (
`id` INT(20) NOT NULL AUTO_INCREMENT COMMENT '自增ID',
`name` VARCHAR(50) NOT NULL COMMENT '姓名',
`description` VARCHAR(50) NOT NULL COMMENT '描述',
`timestamp` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '时间戳',
PRIMARY KEY (`id`))
注意,做增量导入,要求数据表有一个timestamp字段,以此来判断每次处理的时间
<dataConfig>
<dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://127.0.0.1/dmp_platform" user="root" password="password" />
<document name="demo_db">
<entity name="demo_tbl" pk="id"
query="select * from demo_tbl"
deltaImportQuery="select * from demo_tbl where id ='${dih.delta.id}'"
deltaQuery="select id from demo_tbl where timestamp > '${dih.last_index_time}'">
</entity>
</document>
</dataConfig>
同时,需要设置solr-5.5.0/bin/solr.in.sh里的时区:
SOLR_TIMEZONE="UTC+8"
4) solr-5.5.0/server/solr/core1/conf/schema.xml,配置:
<uniqueKey>id</uniqueKey>
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" />
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
</analyzer>
</fieldType>
<field name="_version_" type="long" indexed="true" stored="true"/>
<field name="_root_" type="string" indexed="true" stored="false"/>
<field name="id" type="int" indexed="true" stored="true"/>
<field name="name" type="string" indexed="false" stored="true"/>
<field name="description" type="text_ik" indexed="true" stored="true"/>
<field name="timestamp" type="date" indexed="true" stored="true"/>
description字段采用text_ik即IKAnalyzer进行分词和查询处理,并且此字段进行索引,存储。
5) 数据导入测试
勾选“Auto-Refresh Status”以后,页面会自动刷新状态,否则需要手动点击"Refresh Status"。
增量导入的时候不要勾选“clean”,否则会将之前的数据清除。
做完全量导入以后,在Mysql数据库新增一条数据,然后在页面上做deltaimport:
6) 索引查询测试
参考文献:
https://wiki.apache.org/solr/DataImportHandler