1) 将mysql-connector-java-5.1.26.jar放进solr-5.5.0/dist
2)solr-5.5.0/server/solr/core1/conf/solrconfig.xml 配置:
- <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimp ort.DataImportHandler">
- <lst name="defaults">
- <str name="config">data-config.xml</str>
- </lst>
- </requestHandler>
- <lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />
- <lib dir="${solr.install.dir:../../../..}/dist/" regex="mysql-connector-java-.*\.jar" />
3) 在solr-5.5.0/server/solr/core1/conf/ 目录下创建data-config.xml, 内容如下:
假设Mysql的数据库用户名密码是root/password,假设已经在mysql中创建了数据库"demo_db", 表"demo_tbl",字段如下:
CREATE TABLE `demo_tbl` (
`id` INT(20) NOT NULL AUTO_INCREMENT COMMENT '自增ID',
`name` VARCHAR(50) NOT NULL COMMENT '姓名',
`description` VARCHAR(50) NOT NULL COMMENT '描述',
`timestamp` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '时间戳',
PRIMARY KEY (`id`))
注意,做增量导入,要求数据表有一个timestamp字段,以此来判断每次处理的时间
- <dataConfig>
- <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver"
- url="jdbc:mysql://127.0.0.1/dmp_platform" user="root" password="password" />
- <document name="demo_db">
- <entity name="demo_tbl" pk="id"
- query="select * from demo_tbl"
- deltaImportQuery="select * from demo_tbl where id ='${dih.delta.id}'"
- deltaQuery="select id from demo_tbl where timestamp > '${dih.last_index_time}'">
- </entity>
- </document>
- </dataConfig>
同时,需要设置solr-5.5.0/bin/solr.in.sh里的时区:
SOLR_TIMEZONE="UTC+8"
4) solr-5.5.0/server/solr/core1/conf/schema.xml,配置:
- <uniqueKey>id</uniqueKey>
- <fieldType name="text_ik" class="solr.TextField">
- <analyzer type="index">
- <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" />
- </analyzer>
- <analyzer type="query">
- <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" />
- <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
- </analyzer>
- </fieldType>
- <field name="_version_" type="long" indexed="true" stored="true"/>
- <field name="_root_" type="string" indexed="true" stored="false"/>
- <field name="id" type="int" indexed="true" stored="true"/>
- <field name="name" type="string" indexed="false" stored="true"/>
- <field name="description" type="text_ik" indexed="true" stored="true"/>
- <field name="timestamp" type="date" indexed="true" stored="true"/>
description字段采用text_ik即IKAnalyzer进行分词和查询处理,并且此字段进行索引,存储。
5) 数据导入测试
勾选“Auto-Refresh Status”以后,页面会自动刷新状态,否则需要手动点击"Refresh Status"。
增量导入的时候不要勾选“clean”,否则会将之前的数据清除。
做完全量导入以后,在Mysql数据库新增一条数据,然后在页面上做deltaimport:
6) 索引查询测试
参考文献:
https://wiki.apache.org/solr/DataImportHandler