python实现随机样本取样
可能在很多时候,我们需要在一批数据中随机取样,来检查数据的完整性,所以今天我来实现一下这个功能。
我所做的是对一批数据同时取样,意思就是说,假如现在一个xml对应到了一个jpg,他们的文件名相同,需要将着随机的xml和jpg同时取出,取到的是对应的文件,然后我将他们取出的样本放在了不同的文件下,我们来实现一下吧!!!
模块
- os
- random
- shutil
同样的文件路径操作,我所做的是可以做到对大量数据进行操作,但是文件夹中有不同结尾的文件时,执行效率就会变低,所有您可以进行优化!
import os
import random
import shutil
def moveFile(xml_path, jpgDir, pastDir1, pastDir2):
# 文件路径
path_txt = os.listdir(xml_path)
path_png = os.listdir(jpgDir)
# 随机取样
filenumber = len(path_xml)
rate = 0.2
picknumber = int(filenumber * rate)
sample = random.sample(path_xml, picknumber)
for xml_name in sample:
# 判断相同的文件名
for jpg_name in path_jpg:
if xml_name.split('.')[0] == jpg_name.split('.')[0]:
# 拼接路径
xmlpath = os.path.join(xml_path, xml_name)
jpgpath = os.path.join(jpgDir, jpg_name)
# 判断是否存在文件夹
path1 = os.path.exists(pastDir1)
path2 = os.path.exists(pastDir2)
if not path1:
# 不存在,创建
os.mkdir(pastDir1)
shutil.copyfile(xmlpath, pastDir1 + '\\' + xml_name)
else:
# 存在拷贝
shutil.copyfile(xmlpath, pastDir1 + '\\' + xml_name)
# 同理
if not path2:
os.mkdir(pastDir2)
shutil.copyfile(jpgpath, pastDir2 + '\\' + jpg_name)
else:
shutil.copyfile(jpgpath, pastDir2 + '\\' + jpg_name)
if __name__ == '__main__':
fileDir = r"" # xml文件路径
jpgDir = r"" # jpg文件路径
create_xml = r'' # 保存xml
create_jpg = r'' # 保存jpg
moveFile(fileDir, jpgDir, create_xml, create_jpg)
这样就可以显示对一批数据进行取样了,若有什么问题请留言告知!!!