Ana文件夹下有29个txt文件,想通过python将它们合并到一个txt文件中去。
import os
root='E:\Programe\corpora'
path='E:\Programe\corpora\Ana'
files=os.listdir(path)
result=os.path.join(root,'result.txt') #生成最终txt文件(result.txt)的路径
with open(result,'w',encoding='utf-8-sig') as r:
for i in range(1,30):
print(i)
fname=str(i)+'.txt'
filename=os.path.join(path,fname)
with open(filename,'r',encoding='utf-8-sig') as f:
for line in f:
if'《' not in line: #跳过含有书名号《的行
r.writelines(line)
r.write('\n')
结果如下:
注意点:
1.其实可以用os.listdir()函数来获取文件夹中每个txt文件的名字,但是我获取的是乱序的,且无法通过sort()或sorted()对其排序
import os
root='E:\Programe\corpora'
path='E:\Programe\corpora\Ana'
files=os.listdir(path)
print(files)
print(sorted(files))
结果如下:
具体原因我也不知道
2.对新读取的内容进行写入时,应写入在result文档的末尾
import os
root='E:\Programe\corpora'
path='E:\Programe\corpora\Ana'
files=os.listdir(path)
for i in range(1,30):
print(i)
fname=str(i)+'.txt'
filename=os.path.join(path,fname)
with open(filename,'r',encoding='utf-8-sig') as f,open(result,'w',encoding='utf-8-sig') as r:
for line in f:
if'《' not in line: #跳过含有书名号《的行
r.writelines(line)
r.write('\n')
我最初用这样的代码,最后的result中只写入了最后一个txt文档的内容,因为每次读取一个新的txt时,都重新打开了result文档,在其开头写入,之前的内容就被覆盖掉了。解决方案之一就是使用seek()函数定位到result文档的末尾。