Java分页思想在分批次入库和多线程操作中的应用

最新推荐文章于 2023-11-10 10:03:54 发布

sinadrew

最新推荐文章于 2023-11-10 10:03:54 发布

阅读量829

点赞数

分类专栏： Java笔记文章标签：分页分批多线程入库 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinadrew/article/details/79913963

版权

Java笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

java web分页思想很常用，本质思想是：由于数据量太大，一页显示不完的，所以需要分页显示。那么分页核心就是如何计算每一页的起始下标。

分页思想总结起来就是分批次处理，除了用在web页面的分页，还适用于数据库入库和多线程操作等应用场景。

只要掌握了其原理，便可举一反三。

解析开始：

1.总共有 len 条数据，但每次只能处理 batchSize 条记录，所以需要分为 times 次来处理。

a.如果能整除比较简单：

times = len / batchSize

b.如果不能整除，只需要把余数单独作为一轮来处理就行了：

if(len%batchSize != 0) //如果不能整除，则要多跑一轮

times++;

/哈哈分割线/

2.当把批次确定好了之后，接下来计算每一轮的起始和结束下标即可。

//以len=32，batchSize=10，times=(32/10)+1=4 为例

(PS粗心的同学：整型数据相除舍去小数位，只取整数据位)

那么第一轮：[0 --9]

第二轮：[10 -- 19] //个位数是不是很规律：-）

第三轮：[20 --29]

第四轮：[30 -- 31]

或者：

第一轮：[1 -- 10]

第二轮：[11 --20] //个位数是不是很规律：-）

第三轮：[21 --30]

第四轮：[31 -- 32]

/哈哈分割线/

so，下面上代码：

a.下标从0开始计算的情况

for(int i=1; i<=times; i++)

{

start= (i-1)*batchSize; //=0， 10， 20， 30

end= start + batchSize; //=10 ，20， 30， 32

if(end>=len) //最后一轮数据未满，所以end 要特殊处理

end= len;

//这个是开区间[start,end)，这个区间内的数据就是本轮要处理的数据

do something(start,end)//传入区间参数，调用函数完成计算

｝

b.下标从1开始计算的情况

for(int i=1; i<=times; i++)

{

start= (i-1)*batchSize+1; //=1 ，11， 21，31

end= start + batchSize-1; //=10， 20，30，32

if(end>=len) //最后一轮数据未满，所以end 要特殊处理

end= len;

//这个是闭区间[start,end]，这个区间内的数据就是本轮要处理的数据

do something(start,end)//传入区间参数，调用函数完成计算

｝

下面贴上源代码：

a.下标从0开始计算的情况

/**
     * 利用分页思想， 分批次入库
     * @Title: batchWriteDB 
     * @param list  list表数据过大，需要分批入库
     * @param batchSize	每轮入库数据量
     * @param sp	spark api
     * @param tbName	表名
     * @param beanClass	表的bean对象
     */
    public static <T> void batchWriteDB(List<T> list,int batchSize,SparkApi sp, String tbName, Class<T> beanClass)
    {
    	int len = list.size();//总数
    	int times = len/batchSize;//轮数
	if(len%batchSize != 0)//如果不能整除，则要多跑一轮
	        times++;
		
	Log.log("-----总共"+len+" 条记录总需要分为"+times+" 轮来入库，每轮写入"+batchSize+" 条记录");	
	int start = 1;
	int end = 1;
		
	for(int i=1;i<=times; i++)
	{
	    start = (i-1)*batchSize;
	    end = start + batchSize;
	    if(end>=len)//最后一轮数据未满
	        end = len;
			 
	    //子集为开区间[0,len)  =[0, len-1]
	    List<T> list2 = list.subList(start,end);
	    Log.log("第"+i+"轮入库：list2.size()= "+list2.size()+",  list.size()="+list.size());
	    Log.log("start="+start+", end="+end+" length="+(end-start));  
			
            Dataset<Row> squaresDF = sp.createDataFrame(list2, beanClass);
            squaresDF.coalesce(Config.nSparkCores).write().partitionBy("timeh").mode(SaveMode.Append).saveAsTable(tbName);
            squaresDF = null;           
         }
    }

b.下标从1开始计算的情况

public static void hbaseMultiInsert(int dataNum,int ThreadNum) throws InterruptedException 
{	
      if(dataNum%ThreadNum!=0)//如果不能整除，则要多跑一轮
            ThreadNum ++; 
      int pageSize  = dataNum/ThreadNum;//分页思想：每轮执行多少数据
            int start = 1;
	    int end = 1;
	    //同步器
	   final CountDownLatch cdl = new CountDownLatch(ThreadNum);
	   long starttime=System.currentTimeMillis();
	   for(int k=1;k<=ThreadNum;k++)
	   {
		  start = (k-1)*pageSize+1;
		  end = start+pageSize-1;
		  if(end>=dataNum)//最后一轮数据未满
		       	end = dataNum;
		  
		  //extends Thread这样调用
		  new MyThread(cdl,start,end).start();
			  
		 /*
		  //MyThread implements Runnable这样调用
		  MyThread my = new MyThread(start,end);			  
		  Thread thread = new Thread(my); 
		  thread.start();
		 */
            }
          try {
	      cdl.await();
	      long spendtime=System.currentTimeMillis()-starttime;
	      System.out.println( ThreadNum+"个线程花费时间:"+spendtime/1000.0);
	  } catch (InterruptedException e) {
		      e.printStackTrace();
	  }	  
		
}//hbaseMultiInsert

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Java分页思想在分批次入库和多线程操作中的应用

java web分页思想很常用，本质思想是：由于数据量太大，一页显示不完的，所以需要分页显示。那么分页核心就是如何计算每一页的起始下标。分页思想总结起来就是分批次处理，除了用在web页面的分页，还适用于数据库入库和多线程操作等应用场景。只要掌握了其原理，便可举一反三。解析开始： 1.总共有 len 条数据，但每次只能处理 batchSize 条记录，所以需要分为...
复制链接

扫一扫

专栏目录

sinadrew CSDN认证博客专家 CSDN认证企业博客

码龄10年

28: 原创

13万+: 周排名

166万+: 总排名

26万+: 访问

: 等级

1517: 积分

68: 粉丝

64: 获赞

30: 评论

346: 收藏

私信

关注

热门文章

分类专栏

数仓 5篇
Java笔记 7篇
大数据 12篇
网络配置 4篇
算法 1篇

最新评论

CCProxy是个好东西
JOEL01: 这个软件作者被盗用你的IP，如果安装在服务器上是非常不安全的
数仓模型-增全量合并
qq_36605766: 为啥是full join 不是unin all,两张表的数据不是一样的吗
CCProxy是个好东西
a980451981: 写的不错，顶个贴，点个赞，嘿嘿！
Java实现掷骰子控制台和窗体两种实现方法
篮色梦想: 不会饿
内网穿透和远程开机
mooncrystal123: 如果内网不能连接互联网的，这个也可以用吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。