python已有整个数据集和验证集，自动生成训练集2

最新推荐文章于 2023-06-03 15:21:35 发布

鸡丝米线

最新推荐文章于 2023-06-03 15:21:35 发布

阅读量496

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/qq_43659401/article/details/123995989

版权

python

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

说明：txt中保存的内容形式是字典，\n隔开
如果txt中保存的内容形式是str，图片索引，请看博主另一篇博客
即拿即用，改文件路径就可

import random
import numpy as np
import re
import sys
import os
import json

str1 = []
str2 = []
str_dump = []
fa = open("val.txt", 'rb')#验证集路径
fb = open("all.txt", 'rb')#整个数据集路径
fc = open("train。txt", 'w+',encoding='utf-8')#train.txt位置填生成的训练集路径

# 将A.txt的内容逐行读到str1中
for line in fa:
    line = line.splitlines()
    line = str(line)
    str1.append(line)
# 将B.txt中的内容逐行读到str2中
for line in fb.readlines():
    line = line.splitlines()
    line = str(line)
    str2.append(line)

# 将两个文件中重复的行，添加到str_dump中
for i in str1:
    if i in str2:
        str_dump.append(i)

# 将两个文件的行合并，并去重
str_all = set(str1 + str2)

# 将重复的行，在去重的合并行中，remove掉，剩下的就是不重复的行了
for i in str_dump:
    if i in str_all:
        str_all.remove(i)
# 写到文件中
for i in list(str_all):
    i=eval(i)
    i=i[0]
    i = eval(i)#字符串转字典
    i = json.dumps(i, ensure_ascii=False)
    fc.writelines(i)
    fc.write('\n')


fa.close()
fb.close()
fc.close()