solr(六)增量导入及定时自动更新

接着总结整理,接着来~

内容:

1.设置数据导入时的两种方式:增量导入(delta-import)和全量导入(full-import)的配置

2.定时自动增量更新设置

一:增量导入实现配置:

 

1.  导入jar包,将solr-dataimporthandler-5.3.1.jar和solr-dataimporthandler-extras-5.3.1.jar从solr-7.1/dist/文件夹下copy到solr-7.1/server/solr-webapp/webapp/WEB-INF/lib当中

2.  增加data-config中增量配置,如下:

<dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/dbname" user="db_username" password="db_password"/>

·        数据源也可以配置在solrconfig.xml

·        属性type 指定了实现的类型。它是可选的。默认的实现是JdbcDataSource

·        属性 name  datasources的名字,当有多个datasources时,可以使用name属性加以区分

·        其他的属性都是随意的,根据你使用的DataSource实现而定。

·        当然你也可以实现自己的DataSource

我们做如下配置:

<dataConfig>
   
<dataSource driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/ceshi" user="root" password="root"/>
   
<document name="salesDoc">
       
<entity name="test"  pk="id"
               
query="SELECT* from test"
               
deltaQuery="selectid as id from test where update_time > '${dih.last_index_time}'"
               
deltaImportQuery="select id,name,sex,age from test where id='${dih.delta.id}'">
           
<field name="id" column="id" />
           
<field name="textname" column="name"/>
           
<field name="sex" column="sex"/>
           
<field name="age" column="age"/>
       
</entity>
    </document>
</dataConfig>

query是获取全部数据的SQL
deltaImportQuery是获取增量数据时使用的SQL
deltaQuery是获取pkSQL
parentDeltaQuery是获取父EntitypkSQL

 

注意:该处必须包含ID,否则不能进行

 

 多数据源

一个配置文件可以配置多个数据源。增加一个dataSource元素就可以增加一个数据源了。name属性可以区分不同的数据源。如果配置了多于一个的数据源,那么要注意将name配置成唯一的。

<dataSource type="JdbcDataSource" name="ds-1" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://db1-host/dbname" user="db_username" password="db_password"/>

<dataSource type="JdbcDataSource" name="ds-2" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://db2-host/dbname" user="db_username" password="db_password"/>

使用为:

<entity name="one" dataSource="ds-1" ...>
   ..
</entity>

<entity name="two" dataSource="ds-2" ...>
   ..
</entity>

 

3: managed-schema中添加

<!--  test data -->
<!-- <field name="id" type="string" indexed="true" stored="true" />  -->
<field name="textname" type="text_ik" indexed="true" stored="true" />
<field name="sex" type="string" indexed="true" stored="true" />
<field name="age" type="string" indexed="true" stored="true" />

4:在solrconfig.xml引入添加的data-config.xml文件

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
        <str name="config">./data-config.xml</str>
    </lst>
</requestHandler>

即可完成增量导入数据;

二:自动增量更新

1 除了将上述两个jar包导入,再将solr-dataimport-scheduler.jar同样导入(scheduler调度,日程安排

2 在webapps/solr/WEB-INF下web.xml配置监听。如下:

<listener>
    <listener-class>  org.apache.solr.handler.dataimport.scheduler.ApplicationListener
    </listener-class>
</listener>

3 在solr-home目录下新建conf文件夹,在文件夹下新建dataimport.properties文件,在其里面设置自动增量及全量导入时间,如下:

#################################################
#                                               #
#       dataimport scheduler properties         #
#                                               #
#################################################

# server BASIC authorization by userName and password
# format:userName:password
# if no server BASIC authorization,please set:
#  authorizationMsg=
authorizationMsg=userName:password

#  to sync or not to sync
#  1 - active; anything else - inactive
syncEnabled=1

#  which cores to schedule
#  in a multi-core environment you can decide which cores you want syncronized
#  leave empty or comment it out if using single-core deployment
syncCores=core1

#  solr server name or IP address
#  [defaults to localhost if empty]
#solr服务器的ip地址
server=localhost

#  solr server port
#  [defaults to 80 if empty]
port=8080

#  application name/context
#  [defaults to current ServletContextListener's context (app) name]
webapp=solr

#  URL params [mandatory]
#  remainder of URL
#增量
params=/dataimport?command=delta-import&clean=false&commit=true&optimize=false&wt=json&indent=true&verbose=false&debug=false

#  schedule interval
#  number of minutes between two runs
#  [defaults to 30 if empty]
#自动增量更新的时间间隔,单位为分钟,默认为30分。
interval=1

#  重做索引的时间间隔,单位分钟,默认7200,即5天;
#  为空,为0,或者注释掉:表示永不重做索引
reBuildIndexInterval=43200

#  重做索引的参数
reBuildIndexParams=/dataimport?command=full-import&clean=true&commit=true&optimize=true&wt=json&indent=true&verbose=false&debug=false

#  重做索引时间间隔的计时开始时间,第一次真正执行的时间=reBuildIndexBeginTime+reBuildIndexInterval*60*1000;
#  两种格式:2012-04-11 03:10:00 或者  03:10:00,后一种会自动补全日期部分为服务启动时的日期
reBuildIndexBeginTime=23:59:59

注意:不能存在空格,否则找不到执行的URL

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
您可以按照以下步骤配置Solr增量更新: 1. 在Solr的web.xml文件中添加增量更新监听器。在web.xml文件中添加以下代码段: ``` <listener> <listener-class>org.apache.solr.handler.dataimport.scheduler.ApplicationListener</listener-class> </listener> ``` 这将引入增量更新的监听器。 2. 配置solrconfig.xml文件。在solrconfig.xml文件中,您需要配置以下内容: - 设置dataImportHandler请求处理器。确保以下的请求处理器配置在solrconfig.xml的<requestHandler>部分中: ``` <requestHandler name="/dataimport" class="solr.DataImportHandler"> <lst name="defaults"> <str name="config">solr-data-config.xml</str> </lst> </requestHandler> ``` - 设置自动调度器。在solrconfig.xml的<config>部分中添加以下配置: ``` <autoCommit> <maxDocs>10000</maxDocs> <maxTime>15000</maxTime> </autoCommit> <updateHandler class="solr.DirectUpdateHandler2"> <updateLog> <str name="dir">${solr.data.dir:}</str> </updateLog> </updateHandler> <requestDispatcher handleSelect="true" > <requestParsers enableRemoteStreaming="true" multipartUploadLimitInKB="2048000" /> </requestDispatcher> ``` - 配置增量更新定时任务。在solrconfig.xml的<config>部分中添加以下配置: ``` <dataConfig> <dataSource type="JdbcDataSource" driver="your_driver" url="your_jdbc_url" user="your_username" password="your_password" /> <document> <entity name="<your_entity_name>" query="<your_query>" deltaQuery="SELECT id FROM your_table WHERE last_modified > '${dataimporter.last_index_time}'"> <field column="id" name="id" /> <!-- 增加其他字段 --> </entity> </document> </dataConfig> ``` 注意替换上述代码中的占位符,例如your_driver、your_jdbc_url、your_username、your_password、your_entity_name、your_query和your_table,根据您的实际情况配置。 3. 配置managed-schema文件。确保managed-schema文件中包含增量更新需要的字段定义。 4. 下载并安装增量更新的jar包。从https://code.google.com/p/solr-dataimport-scheduler/downloads/list下载apache-solr-dataimportscheduler-1.0-with-source.jar,并将它放置在Tomcat目录的相应位置。 完成上述配置后,您可以启动项目并开始使用Solr增量更新功能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [solr自动增量更新](https://blog.csdn.net/SSHH_ZHU/article/details/103968258)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [Solr增量更新和全量更新对比](https://blog.csdn.net/qq_42941671/article/details/108324169)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [solr配置增量更新定时更新数据库索引](https://blog.csdn.net/weixin_33433067/article/details/113541424)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值