solr的分词插件的使用和数据的导入

###solr的分词插件 solr有一个中文的分词插件,使用分词插件后,可以将一段中文文档分成一个个词,而不会像之前一样将中文直接分成一个个字。这样做的好处时利于solr建索引,solr的索引是反向索引,先查词典再查索引序号,所以分词之后建的索引可以加快查询速度。 ####solr分词插件的使用 1.首先下载jar包,地址:https://github.com/lihengming/solr

cd ~ 
将jar包移动到该位置
cp ./IKAnalyzer2012FF_u2.jar /home/cgsj/solr-7.2.1/server/solr-webapp/webapp/WEB-INF/lib

2.编辑一下我们当时创建的test-core里面的managed-schema文件 首先再managed-schema中添加一个字段类型

//配置分词器fieldType
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
//将type改为分词器类型
<field name="title" type="text_ik" indexed="true" stored="true"/>

3.重启solr服务

重启之后我们进入solr的管理站,如下图操作,可以看到我们所要分词的文字被分词了。solr在创建索引的时候也会将这些词放在索引的词典里面。

solr数据的导入

solr支持数据的全量导入和增量导入,并且支持的数据源种类也很多,它可以从数据库,json,xml,文本等等导入数据。

数据库的导入示例:

现在有一个user的表数据需要导入到solr,该表需要有的字段有id,username,passeord,ctime(创建时间),mtime(修改时间),isDelete(删除标记)

1.首先我们需要导入此功能所需要的jar包

//进入solr的目录
cd solr-7.2.1
cp dist/solr-dataimporthandler-7.2.1.jar server/solr-webapp/webapp/WEB-INF/lib/
cp dist/solr-dataimporthandler-extras-7.2.1.jar server/solr-webapp/webapp/WEB-INF/lib/
//由于需要连接mysql数据库,所以还mysql的jar包
cp ~/mysql5-5.0.jar  server/solr-webapp/webapp/WEB-INF/lib/

2.修改solr的配置文件

修改~/solr-home/test-core/conf/solrconfig.xml

//将此段加入文末
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
        <lst name="defaults">
            <str name="config">data-config.xml</str>
        </lst>
</requestHandler>

在conf目录创建一个data-config.xml文件

<?xml version="1.0" encoding="UTF-8" ?>
<dataConfig>
    <!--这里配置自己的数据库信息-->
    <dataSource name="mysql" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://120.79.213.xxx:3306/cgsjblog?useUnicode=true&amp;characterEncoding=UTF-8" user="root" password="xxxxx." batchSize="-1" />
    <document>
        <!--query  全量查询语句-->
        <!--deltaImportQuery  增量导入语句-->
        <!--deletedPkQuery  被删除的文档主键查询-->
        <!--deltaQuery  被更新的文档主键查询-->
        <entity name="blog" pk="id" transformer="DateFormatTransformer" dataSource="mysql"
                query="SELECT id,title,author FROM blog"
                deltaImportQuery="SELECT id,title,author FROM blog WHERE id = ${dih.delta.id}"
                deletedPkQuery="SELECT id FROM blog where isDelete = 1"
                deltaQuery="SELECT id FROM blog where mtime > '${dataimporter.last_index_time}'">
            <field column="id" name="id" />
            <field column="title" name="title" />
            <field column="author" name="author" />
            <field column="mtime" name="mtime" dateTimeFormat="yyyy-MM-dd HH:mm:ss"/>
        </entity>
    </document>
</dataConfig>

由于增量导入的时候需要用到一个修改时间所以我们要给solr添加一个字段mtime

<field name="mtime" type="pdate" indexed="true" stored="true"/>

重启服务。

由图操作:

可以得到结果: 全导入完成。

现在在数据库中修改isDelete为1,表示该数据已被删除:

现在回到solr管理站如下操作:

我们导入方式选择增量导入,并且去掉clean的勾,clean会把当前索引库的索引全部删除,而增量导入只是导入改变的数据,这会使得未改变的数据丢失。

结果如下:

转载于:https://my.oschina.net/jeker8chen/blog/1631179

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值