mysql流式读取大数据量与批量插入数据分析

1、流式读取
java从mysql读取大量数据,当结果从myql服务端返回后立即对其进行处理,这样应用就不需要大量内存来存储这个结果集。此时应该用流式读取。

PreparedStatement ps = connection.prepareStatement("select .. from ..", 
            ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY); 

/*
TYPE_FORWARD_ONLY和CONCUR_READ_ONLY是mysql 驱动的默认值,所以不指定也是可以的 比如: PreparedStatement ps = connection.prepareStatement("select .. from .."); 
*/

//可以修改jdbc url通过defaultFetchSize参数来设置,这样默认所以的返回结果都是通过流方式读取
ps.setFetchSize(Integer.MIN_VALUE); 
ResultSet rs = ps.executeQuery(); 

while (rs.next()) { 
  System.out.println(rs.getString("fieldName")); 
}

/*
mysql判断是否开启流式读取结果的方法,有三个条件forward-only,read-only和fatch size是Integer.MIN_VALUE。我们可以看看它的源码:
/**
 * We only stream result sets when they are forward-only, read-only, and the
 * fetch size has been set to Integer.MIN_VALUE
 *
 * @return true if this result set should be streamed row at-a-time, rather
 * than read all at once.
 */
protected boolean createStreamingResultSet() {
    try {
        synchronized(checkClosed().getConnectionMutex()) {
            return ((this.resultSetType == java.sql.ResultSet.TYPE_FORWARD_ONLY)
                 && (this.resultSetConcurrency == java.sql.ResultSet.CONCUR_READ_ONLY) 
                 && (this.fetchSize == Integer.MIN_VALUE));
        }
    } catch (SQLException e) {
        // we can't break the interface, having this be no-op in case of error is ok

        return false;
    }
}
*/

2、批量写入
如果应用程序是一条一条的执行insert来写入数据,写入是很慢的。主要原因是单条写入时候需要应用于db之间大量的请求响应交互。每个请求都是一个独立的事务提交。这样网络延迟大的情况下多次请求会有大量的时间消耗的网络延迟上。第二个是由于每个事务db都会有刷新磁盘操作写事务日志,保证事务的持久性。由于每个事务只是写入一条数据 所以磁盘io利用率不高,因为对于磁盘io是按块来的,所以连续写入大量数据效率更好。所以必须改成批量写入的方式,减少请求数与事务数。下面是批量插入的例子:

int batchSize = 1000;
PreparedStatement ps = connection.prepareStatement("insert into tb1 (c1,c2,c3...) values (?,?,?...)");

for (int i = 0; i < list.size(); i++) {

    ps.setXXX(list.get(i).getC1());
    ps.setYYY(list.get(i).getC2());
    ps.setZZZ(list.get(i).getC3());

    ps.addBatch();

    if ((i + 1) % batchSize == 0) {
        ps.executeBatch();
    }
}

if (list.size() % batchSize != 0) {
    ps.executeBatch();
}
//注意:jdbc连接串须加:rewriteBatchedStatements=true

上面代码示例是每1000条数据发送一次请求。mysql驱动内部在应用端会把多次addBatch()的参数合并成一条multi value的insert语句发送给db去执行。比如insert into tb1(c1,c2,c3) values (v1,v2,v3),(v4,v5,v6),(v7,v8,v9)…,这样可以比每条一个insert 明显少很多请求。减少了网络延迟消耗时间与磁盘io时间,从而提高了tps。

3、代码展示

public class TestInsert {

    public static void main(String[] args) throws SQLException {

        int batchSize = 1000;
        int insertCount = 1000;

        testDefault(batchSize, insertCount);

        testRewriteBatchedStatements(batchSize,insertCount);

    }

    //默认方式插入
    private static void testDefault(int batchSize, int insertCount) throws SQLException{  

        long start = System.currentTimeMillis();

        doBatchedInsert(batchSize, insertCount,"");

        long end = System.currentTimeMillis();
        System.out.println("default:" + (end -start) + "ms");
    }


    //批量插入
    private static void testRewriteBatchedStatements(int batchSize, int insertCount) throws SQLException {

        long start = System.currentTimeMillis();

        doBatchedInsert(batchSize, insertCount, "rewriteBatchedStatements=true");

        long end = System.currentTimeMillis();
        System.out.println("rewriteBatchedStatements:" + (end -start) + "ms");
    }


    private static void doBatchedInsert(int batchSize, int insertCount, String mysqlProperties) throws SQLException {
        DruidDataSource dataSource = new DruidDataSource();
        dataSource.setUrl("jdbc:mysql://ip:3306/test?" + mysqlProperties);
        dataSource.setUsername("name");
        dataSource.setPassword("password");

        dataSource.init();

        Connection connection = dataSource.getConnection();

        PreparedStatement preparedStatement = connection.prepareStatement("insert into Test (name,gmt_created,gmt_modified) values (?,now(),now())");

        for (int i = 0; i < insertCount; i++) {
            preparedStatement.setString(1, i+" ");
            preparedStatement.addBatch();
            if((i+1) % batchSize == 0) {
                preparedStatement.executeBatch();
            }
        }
        preparedStatement.executeBatch();

        connection.close();   
        dataSource.close();
    }

}
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当处理大数据时,使用多线程可以提高导入效率。除此之外,还有一些其他的技巧可以帮助优化导入过程,下面是一些参考: 1. 使用批量插入批量插入可以显著提高导入效率,因为它减少了和数据库的交互次数。可以使用 JDBC 的 `addBatch()` 方法来将多个 SQL 语句打包成一个批次,然后使用 `executeBatch()` 方法一次性执行。建议每次批量插入的数据行数不要过多,最好控制在几千行以内,否则可能会导致内存溢出。 2. 开启事务:在大数据导入时,开启事务可以提高效率,因为它可以减少数据库的提交操作。通过 `Connection` 对象的 `setAutoCommit(false)` 方法来关闭自动提交,然后在执行完批量插入后,使用 `commit()` 方法手动提交事务。 3. 使用流式读取:如果你的 Excel 文件非常大,一次性读取到内存中可能会导致内存溢出。这时可以使用流式读取的方式,即读取一部分数据,处理完后再读取下一部分。可以使用 Apache POI 的 `SXSSFWorkbook` 类来实现流式读取。 4. 关闭自动刷新:在使用 `SXSSFWorkbook` 进行流式读取时,默认情况下会自动刷新内存,将数据写入磁盘。如果你的 Excel 文件非常大,频繁的刷新可能会影响性能。可以使用 `setFlushOnFlush()` 方法来关闭自动刷新。 下面是一份示例代码,仅供参考: ``` // 打开 Excel 文件 Workbook workbook = WorkbookFactory.create(new File("data.xlsx")); // 获取工作表 Sheet sheet = workbook.getSheetAt(0); // 开始事务 Connection conn = DriverManager.getConnection(url, user, password); conn.setAutoCommit(false); // 准备 SQL 语句 String sql = "INSERT INTO table_name (col1, col2, col3) VALUES (?, ?, ?)"; PreparedStatement pstmt = conn.prepareStatement(sql); // 批量插入数据 int batchSize = 1000; int count = 0; for (Row row : sheet) { pstmt.setString(1, row.getCell(0).getStringCellValue()); pstmt.setString(2, row.getCell(1).getStringCellValue()); pstmt.setString(3, row.getCell(2).getStringCellValue()); pstmt.addBatch(); if (++count % batchSize == 0) { pstmt.executeBatch(); } } // 执行剩余的数据 pstmt.executeBatch(); // 提交事务 conn.commit(); // 关闭资源 pstmt.close(); conn.close(); workbook.close(); ``` 需要注意的是,这只是一个简单的示例代码,具体实现还需要根据实际情况进行调整。同时,需要注意数据库连接池的配置,以及线程安全和数据一致性的问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值