1.背景:在将多个文件进行合并时,存在一个问题是许多文件中含有相同的内容,但是希望合并后的文件内容具有唯一性,即文件中的数据唯一,不会有重复的情况
#txt1内容为: | #txt2内容为: | #希望合并后的文件内容为: |
123234456 | 123254456 | 123234456254 |
2.程序核心代码:
"""
class_train.txt文件中包含许多重复的内容,因此
剔除class_train.txt文件中重复的内容
input: class_train.txt
output: train.txt
"""
train_list = ['bottle_train.txt','chair_train.txt','diningtable_train.txt',
'pottedplant_train.txt','sofa_train.txt','tvmonitor_train.txt']
train = 'train.txt'
train_data = set()
for i in train_list:
f = open(i,'r')
for line in f:
if line[12:14] == ' 1':
train_data.add(line)
f.close()
outfile=open(train,'w')
for i in list(train_data):
outfile.write(i)
outfile.close()