Python处理中文txt的方法总结
中文处理
因为Python默认使用的编码方式(GBK)无法正确解码包含非ASCII字符的文件。所以需要给Python一个提示
encoding='utf-8'
否则会出现报错UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xac in position
中文txt文本处理
读取方式有很多种,比较常用的就是全部读取以及按行读取
(1) 全部读取
使用file.read()
函数:
infile = 'test.txt'
with open(infile, "r", encoding='utf-8') as f:
data = f.read()
print(data)
(2) 按行读取
使用file.readlines()
函数,以list的形式存储,可以按行进行索引:
with open(infile, "r", encoding='utf-8') as f:
data = f.readlines()
print(data)
print('这是第一行:',data[0])
也可以消去换行符,参考CSDN