关于HANLP的乱码问题

最新推荐文章于 2021-11-27 16:58:44 发布

he_jin_jin

最新推荐文章于 2021-11-27 16:58:44 发布

阅读量1.3k

点赞数

分类专栏：研究生的最后这一年分词文本挖掘文章标签：分词工具文本挖掘乱码 utf-8

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012654154/article/details/72886736

版权

研究生的最后这一年同时被 3 个专栏收录

12 篇文章 1 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

在利用HanLP进行分词的时候，我将一篇新闻txt读入之后分词出现了这种情况：

一大篇文字就转化成了乱码，刚开始我不明白是什么问题，后来上网搜也搜不到，后来突然想到可能是txt文档的编码有问题。于是我打开我的输入文件然后另存为一遍，发现它默认的是ANSI格式的文档，怪不得读出来会是乱码。

后来我将文档另存为，并更改为utf-8的编码格式，再进行一遍分词操作，之前的问题就解决了。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。