NLP学习记录一

在学习自然语言处理时遇到了中文文件显示错误UnicodeDecodeError,原因是文件编码方式为GB2312而非utf-8。通过notepad++转换文件编码为utf-8后,解决了乱码问题。此外,发现hanlp在实际运行中与书本描述有异,它会识别引号作为w符号项。
摘要由CSDN通过智能技术生成

学习记录

中文文件显示错误 UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xc7 in position 2: invalid continuation byte

第一章最后的部分安装好hanlp后,有个将文字存储在.txt文件中
使用head 显示文件内容

$ head input.txt

这个时候就出现乱码
在这里插入图片描述
继续调用命令

$ hanlp segment < input.txt > output.txt -a crf --no-tag

在这里插入图片描述
这个问题是由于出现了无法转换的二进制数据造成的。我保存文件时没有考虑到编码方式的问题。
使用notepad++打开该文件 在右下角查看,可以看到GB2312编码是第一个汉字编码国家标准…
在这里插入图片描述
我们现在将编码方式转换为utf-8. 选择转换为utf-8编码。右下

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值