如何从巨大的文本中随机抽样少量行

本文介绍了如何借助集算器从一个200GB的巨大文本文件中,通过估算和随机算法抽取1万行数据。详细步骤包括计算记录平均长度、估算文件行数、生成随机行数以及选取样本。尽管方法简洁,但由于段落数目是估算的,实际抽样结果可能略少于1万行。
摘要由CSDN通过智能技术生成

现有文本huge.txt,前 5 行内容如下:

f1 f2
yewhhgfifsbplrxankqazzewzkhfxjetiprfvyinchmdventatkry lwxazkmczmpcluechdtfgwapgvyzfxqczcuvadkfqrcciptmpo
viqxbdjjzkdcytdnjiuexottvgdjkafhykbotjsupyuybvgycqhfsdlypuftbezga mmoermrlbovwmfnxgctizucfccatwlvugnqvikhbgaqvamwbzqluwavgcjtonutairrafrpywtwtpocgltmfrxz
plhdyslghehlptlsczizhjbtcqwasvspjqyeifsnqagqovvdukxftsp tlisnnguudbqgrupqpoqjfshldpuwjdkfeizhkfwsvmdspswusmclhqzzxaumvwrerbsl
bltnilcncwgnsyxeosdtytvpdbxuiwukdqpgvvbihoqvvmhogmffzpivuysbhgitfqxptyuofsukmz ajojwbcfptahjetpnmkbsfrblubvvjxyestplybzpxxwsrppgteoreckkscrsu

该文本有200GB,现需要从中随机抽样 1 万行数据

借助集算器可以很方便地完成这件事。

1. 在集算器中编写脚本sample.dfx:

A
1 =file("huge.txt")
2 =A1.cur
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值