自然语言处理入门——何老
学习记录
中文文件显示错误 UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xc7 in position 2: invalid continuation byte
第一章最后的部分安装好hanlp后,有个将文字存储在.txt文件中
使用head 显示文件内容
$ head input.txt
这个时候就出现乱码
继续调用命令
$ hanlp segment < input.txt > output.txt -a crf --no-tag
这个问题是由于出现了无法转换的二进制数据造成的。我保存文件时没有考虑到编码方式的问题。
使用notepad++打开该文件 在右下角查看,可以看到GB2312编码是第一个汉字编码国家标准…
我们现在将编码方式转换为utf-8. 选择转换为utf-8编码。右下