JAVA处理千万级数据(单线程)

记录使用JAVA程序处理千万级的数据表

要求:原表有4000w+数据,需要对其中message字段进行数据处理,并将处理的结果写入result字段中

优化:分表,sql的优化

过程:

最开始是啥都不懂,打算一次性将4000w条数据获取出来
select * from d1 limit 0,40000000;

但结果,java程序在获取500w不到的数据程序就报错提出内存泄漏,而且到数据越到后面越慢,更不要说一次性获取4000w条数据了

所以我去网上搜索如何处理千万级的数据,其中提到了进行分页
select * from d1 limit 0,10000;

一次读取1W条数据,循环个4000次不就可以了,好像IDE也没有提示内存泄漏的异常。

以为这样能解决问题,那么就太天真了。且不说内存会不会泄漏的问题,光这运行的速度就可以让你绝望了。前1000W的数据光读取大概1个多小时了(还没处理数据呢),4000W数据不是简单乘以4就可以了,mysql中的limit 分页方法有一个问题就是它处理数据量大,到后面查询的效率就会越低。

limit的工作原理是遍历到你的标记点,取后面1W数据,前面遍历的数据就抛弃了,那你想想假如这标记点在1000W,相当于花了遍历了1001W数据的时间,取出了这最后1W条数据。

我后来又将分页的sql进行优化,提高了查询的速度

select * from d1 where id>=(select id from d1 order by id limit #{start},1) order by id limit 10000

这种查询方法是分页的子查询方法,在id是数字自增情况下使用,可以提高查询速度,尤其是数据量大的情况,效果更佳。

但这终究无法解决limit分页对于千万级数据的性能局限

因此就将表分成了4个小表,拿其中一个小表代码作为展示:

CREATE TABLE `d1_1` (
    `result` VARCHAR(30) DEFAULT NULL,  
    `date` date DEFAULT NULL,
    `time` time DEFAULT NULL,
    `message` text,
    `id` int(10) unsigned NOT NULL,
     PRIMARY KEY (`id`),
     KEY `date` (`date`) USING BTREE
) ENGINE=MyISAM DEFAULT CHARSET=utf8
INSERT INTO d1_1 (date, time, id, message) SELECT
    date,
    time,
    id,
    message
FROM
    d1
LIMIT 0,10000000

一次性处理4000W条数据太慢,所以就一次性处理1000W条,这样分页limit的性能局限就不会太成为困扰(主要也是因为标记点越到后面limit查询就越费力)


上面的方法主要针对的是数据的读出,下面介绍的数据的写入

我们将数据处理了后又要写入数据库,处理完一条数据就写入数据库的方法想一想就知道这样的效率不会高的,相当于在不断地跟数据库建立连接,我需要做的是批量更新数据

首先在数据库url链接上加入:&allowMultiQueries=true(允许一次执行多条sql,注意这里是&而不是&amp)

mybatis批量更新数据的数据代码如下:

<update id="update" parameterType="java.util.List">
        <foreach collection="list" separator=";" item="i" index="index" >
            update d1_1
            <set>
                result=#{i.result}
            </set>
                where id=#{i.id}
        </foreach>
    </update>

以上就是我处理千万级数据的过程了,包括截取数据的过程,处理一张1000W的小表平均时间大概是20+分钟(不同电脑配置不同所执行的时间也有所差异)

### 回答1: Java作为一门编程语言,拥有强大的多线程支持,通过利用Java多线程技术,可以有效地解决在数据库插入千万级数据时的性能瓶颈问题。 但是,在多线程插入数据库时,需要注意以下几点: 1.连接数限制 数据库通常会有连接数限制,过多的连接会导致数据库性能下降,通过使用连接池可以有效地控制连接数。 2.事务处理大数据量插入时,一次性插入可能会出现异常,这时候需要使用数据库事务管理技术,可以回滚错误的数据,确保数据的完整性。 3.线程数控制 线程数是需要根据机器的配置和系统负载情况合理调整的,过多的线程会浪费资源,过少的线程会导致性能下降。 4.数据批量提交 将需要插入的数据进行分批处理,进行批量提交,可以减少数据库交互次数,提高性能。 综上所述,通过合理利用Java多线程技术以及上述注意事项,在数据库插入千万级数据时,可以大大提高系统的性能,确保数据的有效插入。 ### 回答2: Java多线程数据库插入千万级数据是一项比较复杂的任务。在此之前需要确保数据库的表结构已经建立好,并且在写入数据时需要进行数据分析和处理,尽可能地优化数据的结构和存储方式。 为了提高插入数据的效率,可以采用多线程方式进行数据库插入操作。多线程技术可以将数据分批处理,每个线程负责一部分数据的插入。这样可以有效地提高数据的插入速度和效率。但同时也需要考虑到线程之间的同步问题,以及数据库的并发访问能力。 在进行多线程数据库插入时,需要注意以下几点: 1. 数据库连接池的使用:为了减少数据库连接和关闭的开销,可以采用数据库连接池的方式管理数据库连接。 2. 多线程的线程池:可以使用线程池来管理线程的数量,以控制系统资源的使用和避免过度消耗内存和CPU等资源。 3. 分批插入数据:可以将数据分成若干个批次进行插入,每个线程负责一部分数据的插入,这样可以减少单个事务的大小和对数据库的负载。 4. 数据库的并发控制:需要使用数据库的并发控制机制,以避免多个线程同时访问数据库时出现死锁等问题。 5. 数据结构和数据处理优化:需要对插入的数据进行预处理和优化,以充分利用数据库的性能优势,例如采用批量插入等方式。 总之,要在Java多线程数据库插入千万级数据时,需要对数据结构、线程安全和并发访问等方面进行深入的思考和优化,以达到最佳的性能和效率。 ### 回答3: Java 多线程对于数据库的插入千万级数据是一个非常明智的选择。使用多线程可以将数据插入过程分成多个小块,每个小块都可以被单独处理,从而加快整个过程,提高插入数据的效率。 以下是 Java 多线程数据库插入千万级数据的一些重要步骤和技巧: 1. 数据分片:在将数据插入到数据库之前,需要将数据划分成多个小块。这些小块中的数据可以并行插入到数据库中,这样可以提高插入数据的速度。 2. 在每个小块中使用多线程:在每个小块中,可以使用多个线程同时进行数据插入。这样可以充分利用所有可用资源,从而提高整个过程的效率。 3. 使用连接池:连接池可以帮助我们管理数据库连接,并提供连接复用、线程安全等功能。这样可以减少连接创建和销毁的开销,缩短数据插入时间。 4. 使用 batch 方式插入数据:在插入数据时,可以使用 batch 方式批量插入数据,这样可以减少与数据库的交互次数,从而提高插入数据的效率。 5. 优化 SQL 语句:在插入数据时,需要使用高效的 SQL 语句。例如,可以使用批量插入语句、预处理语句、存储过程等方式,减少 SQL 语句的执行时间和开销。 6. 监控和优化:在数据插入过程中,需要实时监控系统资源的使用情况,及时检测并调整线程数、连接池大小等参数,以保证系统的稳定性和高效性。 7. 数据库性能优化:对于千万级数据的插入,数据库的性能优化也非常重要。例如,可以优化数据库的索引、表分区、缓存等,以提高数据库的查询和插入效率。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值