加上encoding="**"
with open(r'train.zh',encoding='UTF-8') as f:
text=f.read()
new=text.split()
new=list(set(new))
#print(text.split())
with open("myvocab3.txt","w",encoding='UTF-8') as f2:
for i in new:
f2.write(i)
f2.write('\n')
f.close()
f2.close()
读写txt
read() 一次性读全部内容,以字符串的形式返回结果
readline() 读取第一行内容,以字符串的形式返回结果
readlines() 读取文本所有内容,返回列表
读取文本所有内容,并且以数列的格式返回结果,一般配合for in使用
readlines会读到换行符,可用如下方法去除:
with open("test.txt", "r") as f:
for line in f.readlines():
line = line.strip('\n') #去掉列表中每一个元素的换行符