ANSI 编码格式与 UTF-8 不兼容,格式转换后任会出现空格行检测和去除不掉问题。
解决方案(定位,手动清除):
with open(r"D:\pythonProject\xxxxx-pytorch-master\data\char_dict.txt", 'rb') as file:
#读取文件,检测实际非空行数
#char_dict = {char.strip().decode('gbk','ignore'):num for num, char in enumerate(file.readlines())}
#定位空行
char_dict=[]
for num, char in enumerate(file.readlines()):
lines = char.strip().decode('gbk', 'ignore')
if(lines==''):
print(num)
else:
char_dict.append(lines)
print(len(char_dict))