1.中文乱码问题:使用pycharm进行python文本jieba分词时,得到的每个字都是乱码,第一反应时重新设置编码格式utf-8,没有任何效果,后经过摸索,原因是搜狗数据集的文本格式是ANSI,不是utf-8格式,解决办法:将程序中读取文件的格式改成ANSI
2.分词时空格问题,已经使用,有些空格仍然去不掉,
原因:可能存在不同编码格式的空格:
,解决办法:判断空格类型,并使用replace函数将空格去掉
1.中文乱码问题:使用pycharm进行python文本jieba分词时,得到的每个字都是乱码,第一反应时重新设置编码格式utf-8,没有任何效果,后经过摸索,原因是搜狗数据集的文本格式是ANSI,不是utf-8格式,解决办法:将程序中读取文件的格式改成ANSI
2.分词时空格问题,已经使用,有些空格仍然去不掉,
原因:可能存在不同编码格式的空格:
,解决办法:判断空格类型,并使用replace函数将空格去掉