优雅地使用批处理技巧大幅提升数据处理速度

最新推荐文章于 2024-05-12 10:07:51 发布

iSikai

最新推荐文章于 2024-05-12 10:07:51 发布

阅读量854

点赞数

分类专栏： python开发

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oksupersonic/article/details/104670079

版权

python开发专栏收录该内容

9 篇文章 0 订阅

订阅专栏

假设，你遇到一份包含26万句子的数据集需要处理
在这里插入图片描述
而处理速度仅仅为1it/s

如果顺序执行，需要三四天的时间。

一个解决办法就是，分而治之，分成n份并行执行，处理完之后再合并。
具体流程如下：

生成一个包含n个命令的批处理文件，例如

可以发现，我们生成了一个批处理文件（windows：.bat，linux：.sh），每一行是一个python命令。
在windows下，用start /b command，在linux下，使用command &，使得command在后台运行，批处理文件继续开启下一个command。
编写批处理的python程序
例如说我们的工作是：将文件data.txt里每一行加上< end >，输出到data2.txt

with open('data.txt') as f1, open('data2.txt') as f2
	data=f.readlines()
	for line in data
		f2.writelines(line+'<end>')

以批处理的思路改写程序：

import numpy as np
import sys
def process(path,batch)
	with open('path') as f1, open('path_%d'%batch) as f2
		data=f.readlines()
		batch_data=np.array_split(data,8)[batch]# 利用numpy分割数据
		for line in batchdata
			f2.writelines(line+'<end>')
if __name__ == '__main__'
	process(sys.argv[1],sys.argv[2])

运行批处理文件，完成后，合并得到的文件

在实际使用中，面对一开始提出的那种问题，我在四核四线程的i5-6300hq极限可开16个命令，在24核的E5上开48个命令无压力，可以说，至少数十倍地提升了处理速度。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

iSikai CSDN认证博客专家 CSDN认证企业博客

码龄7年

68: 原创

8万+: 周排名

194万+: 总排名

8万+: 访问

: 等级

1503: 积分

12: 粉丝

57: 获赞

25: 评论

153: 收藏

私信

关注

分类专栏

NLP 17篇
python开发 9篇
pytorch 2篇
Linux 3篇
tensorflow 2篇
FPGA 1篇
VHDL 1篇
AllenNLP 2篇
概率dp 5篇
矩阵快速幂 1篇
碎碎念
机组 3篇
GAN 1篇

最新评论

补码的加减法
做而论道_CS: “带符号数” 运算的结果，必然还是 “带符号数”。那么，它代表的十进制数，是什么呢？由补码换算到十进制数，也极其简单。你只需记住：【补码首位的权，是负数】。一般的八位二进制数，各个位的权是：　　128、64、32、16、8421；如果是八位的补码，各个位的权则是：　－128、64、32、16、8421。　例如，补码是：1110 0000，它代表的十进制是：－128 + 64 + 32 = －32。如果，补码是：0110 0000，它代表的十进制是：0 + 64 + 32 = ＋96。在这里仅仅使用【进制转换】，就完事了！根本就不用取反加一转换到反码原码！
补码的加减法
做而论道_CS: 八位二进制的范围是：0 ~ 255。其中的 0 ~ 127 就是正数。另外的 128 ~ 255 是负数的补码。 0 ~ 127 的二进制，最高位是 0；而 128 ~ 255 的最高位是 1。这个最高位，是正负数的特征位。这个位的值，是自然形成的，并非是人为规定的 “符号位”。用二进制计算时，如果：　两个正数相加，和却大于 127，这就是溢出了。　负数（补码）相加，和小于 128，也是溢出了。溢出判断，就这么简单。
补码的加减法
做而论道_CS: 在计算机中，“带符号数”（即正数及负数的补码）都是正数。它们也都是普通的数字，并没有任何特殊的地方。在计算机中，只有二进制加法器。针对 “带符号数” 运算，就是对二进制数进行加法运算。但是，只有一点必须要注意：【运算的位数，是固定的，不必考虑产生的进位。】如果用到了进位，那就是对 “无符号数” 的运算了。
补码的加减法
做而论道_CS: 一个字节是 8 位 2 进制数，计数周期是 2^8 = 256。－1 的补码，就是 255 = 1111 1111 (二进制)；－2 的补码，就是 254 = 1111 1110 (二进制)；。。。－128 的补码，就是 128 = 1000 0000 (二进制)。－－－－－－－－－－－－－－－－－－－所有负数的补码（或补数），都是正数。而正数，已经就是正数，当然就不需要再代替了。所以，【正数，根本就没有补码】。－－－－－－－－－－－－－－－－－－－求补码，就是这么简单。原码反码取反加一，都是没有任何用处的。计算机老师为了混碗饭吃，才没完没了的讲这些垃圾。
补码的加减法
做而论道_CS: 显而易见的现象，也是有规律的。＝＝＝＝＝＝＝【划重点】＝＝＝＝＝＝＝求补数的通用公式：　代替负数的正数 (即补数) = 负数 + 周期。＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝计算机用二进制，补数，就改称为 “补码”。为什么改名？这就是计算机专业老师故弄玄虚而已。他们就是 “诚心不让你理解补码” ！太简单了不好讲，只好编造一些难懂的词汇，以显高深。原码反码补码符号位，都是无中生有，人为编造出来的。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。