NLP学习记录一

最新推荐文章于 2024-06-21 10:51:21 发布

暖风️

最新推荐文章于 2024-06-21 10:51:21 发布

阅读量275

点赞数 2

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45122568/article/details/120547821

版权

在学习自然语言处理时遇到了中文文件显示错误UnicodeDecodeError，原因是文件编码方式为GB2312而非utf-8。通过notepad++转换文件编码为utf-8后，解决了乱码问题。此外，发现hanlp在实际运行中与书本描述有异，它会识别引号作为w符号项。

摘要由CSDN通过智能技术生成

自然语言处理入门——何老

学习记录
- 中文文件显示错误 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc7 in position 2: invalid continuation byte
- 和书本上的一些不同

学习记录

中文文件显示错误 UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xc7 in position 2: invalid continuation byte

第一章最后的部分安装好hanlp后，有个将文字存储在.txt文件中
使用head 显示文件内容

$ head input.txt

这个时候就出现乱码
在这里插入图片描述
继续调用命令

$ hanlp segment < input.txt > output.txt -a crf --no-tag

在这里插入图片描述
这个问题是由于出现了无法转换的二进制数据造成的。我保存文件时没有考虑到编码方式的问题。
使用notepad++打开该文件在右下角查看，可以看到GB2312编码是第一个汉字编码国家标准…

我们现在将编码方式转换为utf-8. 选择转换为utf-8编码。右下

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。