在solr中使用dataimport导入数据报内存溢出问题

solr-7.3.0\bin>Exception in thread "Thread-21" java.lang.OutOfMemoryError: Java heap space
        at com.mysql.jdbc.MysqlIO.readPacket(MysqlIO.java:604)
        at com.mysql.jdbc.MysqlIO.getResultSet(MysqlIO.java:417)
        at com.mysql.jdbc.MysqlIO.readResultsForQueryOrUpdate(MysqlIO.java:3112)
        at com.mysql.jdbc.MysqlIO.readAllResults(MysqlIO.java:2341)
        at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2736)
        at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2490)
        at com.mysql.jdbc.ConnectionImpl.commit(ConnectionImpl.java:1555)
        at org.apache.solr.handler.dataimport.JdbcDataSource.closeConnection(JdbcDataSource.java:571)
        at org.apache.solr.handler.dataimport.JdbcDataSource.close(JdbcDataSource.java:560)
        at org.apache.solr.handler.dataimport.DocBuilder.closeEntityProcessorWrappers(DocBuilder.java:289)
        at org.apache.solr.handler.dataimport.DocBuilder.execute(DocBuilder.java:278)
        at org.apache.solr.handler.dataimport.DataImporter.doFullImport(DataImporter.java:424)
        at org.apache.solr.handler.dataimport.DataImporter.runCmd(DataImporter.java:483)
        at org.apache.solr.handler.dataimport.DataImporter.lambda$runAsync$0(DataImporter.java:466)
        at org.apache.solr.handler.dataimport.DataImporter$$Lambda$234/929216091.run(Unknown Source)
        at java.lang.Thread.run(Thread.java:748)

solr使用dataimport导入数据的时候,一般情况能够快速导入数据,但由于数据库中数据量过大(我在导入的时候是百万级的),就会导致内存溢出的问题。
如何解决呢?
一方面是解决内存问题,不然solr程序就会通过oom脚本将solr实例杀死,导致程序无法正常使用。可以使用以下命令调整内存:

./solr start -m 1g

另一方面是设置参数
batchSize="-1"
在data_config.xml文件中修改配置:
<?xml version="1.0" encoding="UTF-8" ?>

<dataConfig>
<dataSource typ="JdbcDataSource"
    driver="com.mysql.jdbc.Driver"
    url="jdbc:mysql://127.0.0.1:3306/parse_cnki_all?useSSL=true&amp;verifyServerCertificate=false&amp;allowMultiQueries=true&amp;useUnicode=true&amp;characterEncoding=UTF-8"
    user="root"
    password="123456"
	batchSize="-1"
/>
<document>
     <!--name 使用数据库的表名 -->
    <entity dataSource="JdbcDataSource" name="tb_parse_document" pk="id" query="SELECT id,title,author,address,abstracts,keyword,CAT, ref,year,roll,perioId,perioName,perioNum,fund,special_name,issn,cn,doi from tb_parse_document; " >
      <!--column 是数据库的表的列,name 是solr中的列名 需要在manage-schema中配置规则  -->
        <field column="id" name="id"/>
        <field column="title" name="title"/>
        <field column="author" name="author"/>
        <field column="address" name="address"/>
        <field column="abstracts" name="abstracts"/>
        <field column="keyword" name="keyword"/>
        <field column="CAT" name="CAT"/>
        <field column="ref" name="ref"/>
        <field column="year" name="year"/>
        <field column="roll" name="roll"/>
		<field column="perioId" name="perioId"/>
        <field column="perioName" name="perioName"/>
        <field column="perioNum" name="perioNum"/>
        <field column="fund" name="fund"/>
        <field column="special_name" name="special_name"/>
        <field column="issn" name="issn"/>
		<field column="cn" name="cn"/>
        <field column="doi" name="doi"/>
    </entity>
</document>
</dataConfig>

关于solr的索引问题
一次性创建索引

在JVM内存配置为256M时,建立索引至1572865时出现Java heap异常;增加JVM内存配置至512M,设置系统环境变量:JAVA_OPTS -Xms256m -Xmx512m,能成功建立2112890条(花费2m 46s)。

D:\develop\solr-7.3.0\bin>set JAVA_OPTS=-server -Xms1024m -Xmx1024m -XX:PermSize=128M -XX:MaxPermSize=256M

或者在D:\develop\solr-7.3.0\bin\solr.in.cmd里面修改set JAVA_OPTS=-server -Xms1024m -Xmx1024m配置
平均索引创建速度为:12728/s(两个string字段,长度大约为20字符)。

增量创建索引

注意:近实时增量索引需要写数据库服务的时间与搜索引擎服务器时间同步(数据库服务时间先于搜索引擎服务器时间才行)。
使用默认的DIH创建增量索引速度较慢(50/s~400/s),不如全索引(1W/s),因为需要从数据库中读取多遍(1、要更新的IDs;2、每1ID去数据库中重取所有列)。
故需要更改DIH增量索引程序,以全索引的方式读数据;或采取全读出的方式,一次全读出所有列,具体文件配置如上,通过这样的配置可以达到增量索引9000/s

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用Python增量导入Oracle数据Solr,您需要遵循以下步骤: 1. 安装Solr和Python的相关库(如pysolr)。 2. 编写Python脚本,连接Oracle数据库并执行增量查询,将查询结果转换为Solr文档格式,并使用pysolr库将文档添加到Solr。 3. 您可以使用定时任务(如cron)来定期运行Python脚本,以便进行增量导入。 下面是一个示例Python脚本,用于从Oracle数据查询并导入数据Solr: ``` import cx_Oracle import pysolr # Oracle数据库连接配置 dsn_tns = cx_Oracle.makedsn('localhost', '1521', 'XE') conn = cx_Oracle.connect(user='username', password='password', dsn=dsn_tns) cursor = conn.cursor() # Solr连接配置 solr = pysolr.Solr('http://localhost:8983/solr/mycore', timeout=10) # 查询增量数据 query = "SELECT * FROM mytable WHERE updated_at > :last_update" last_update = '2021-01-01 00:00:00' # 上次更新时间 cursor.execute(query, last_update=last_update) # 将查询结果转换为Solr文档格式 docs = [] for row in cursor: doc = { 'id': str(row[0]), 'title': row[1], 'content': row[2], 'updated_at': row[3].strftime('%Y-%m-%dT%H:%M:%SZ') } docs.append(doc) # 添加文档到Solr solr.add(docs) # 更新上次更新时间 last_update = datetime.now().strftime('%Y-%m-%d %H:%M:%S') # 关闭Oracle连接和Solr连接 cursor.close() conn.close() solr.commit() solr.close() ``` 此脚本将从Oracle数据查询更新时间大于上次更新时间的数据,并将查询结果转换为Solr文档格式。然后,使用pysolr库将文档添加到Solr,并更新上次更新时间。您可以根据需要调整查询和文档格式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值