在利用HanLP进行分词的时候,我将一篇新闻txt读入之后分词出现了这种情况:
一大篇文字就转化成了乱码,刚开始我不明白是什么问题,后来上网搜也搜不到,后来突然想到可能是txt文档的编码有问题。于是我打开我的输入文件然后另存为一遍,发现它默认的是ANSI格式的文档,怪不得读出来会是乱码。
后来我将文档另存为,并更改为utf-8的编码格式,再进行一遍分词操作,之前的问题就解决了。
在利用HanLP进行分词的时候,我将一篇新闻txt读入之后分词出现了这种情况:
一大篇文字就转化成了乱码,刚开始我不明白是什么问题,后来上网搜也搜不到,后来突然想到可能是txt文档的编码有问题。于是我打开我的输入文件然后另存为一遍,发现它默认的是ANSI格式的文档,怪不得读出来会是乱码。
后来我将文档另存为,并更改为utf-8的编码格式,再进行一遍分词操作,之前的问题就解决了。