python场景分割_Python大杂烩4:按比例分割文件

1.场景

在很久很久以前,有一个马夫。

他给国王喂养了10万匹马,有一本马匹花名册q4.txt。

有一天,国王要求马夫把花名册随机分成2部分,分别交给2个人保管。

第1 部分占20%,第2部分占80%。

花名册

我们来帮他实现。

2.代码

python版本:v3.7.3

用法: python splitRoster.py q4.txt 10%

#splitRoster.py

#2020.03.23

import sys

import random

def random_extract(in_file, out_file, number):

#用列表解析一次性将文件所有内容读入,文件大于1GB时最好不要这么做

#文件最好使用utf-8读取和写入

in_lines = [line for line in open(in_file, "r", encoding="utf-8")]

out_lines = []

#循环number次,每次从所有数据中拿出1条放到out_lines

for _ in range(int(number)):

out_lines.append(in_lines.pop(random.randint(0, len(in_lines)-1)))

#将out_lines排序并写入输出文件

out_lines.sort()

with open(out_file, "w", encoding="utf-8") as fw:

fw.writelines(out_lines)

if __name__ == "__main__":

#从控制台cmd接收参数列表

args = sys.argv

in_file = args[1]

out_file = args[2]

number = args[3]

random_extract(in_file, out_file, number)

3.讨论

国王: 第13行中的下划线“_”是什么意思?

作者:

占位符,没有含义。可以写成for i in range(int(number)),但也用不到这个i,所以直接用个占位符就可以了。该行代码只需要循环number次就可以了。

国王:抽取的数据中会有重复的吗

作者:

没有重复。第14行中的pop()方法会从list中拿出1条记录并从list中删除该条记录,改变了list本身。在每次进入循环时list都会少1条记录,保证了数据的不重复性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值