NLP中语料编码问题处理

本文介绍了在处理一个情感分析项目时遇到的ISO-8859编码问题,详细说明了解决方法。通过在读取时采用ISO-8859-1编码,并在写入时使用GBK解码,成功解决了中文字符的编码问题。文章还探讨了ISO-8859-1编码的特性以及与Unicode、GBK编码的关系。
摘要由CSDN通过智能技术生成

前言

去年吧,在做一个文本分类的项目时,对编码问题做过一次总结,链接在这达
但是问题常新常有,之前的解决办法不能应对了,为了下次更加省时省力,还不让心情变糟,才有了这次的博客。

背景

这次想做的是一个情感分析的项目,目前尚在练习demo,总结方法当中,语料是别人开源出来的,感谢这样的好人,不需要我在爬虫了,好人简书链接戳这里:我是链接

他这个语料库编码很奇怪:
使用file filename命令查看文件编码时发现是IOS-8859

pos.1.txt: ISO-8859 text, with CRLF, CR line terminators

然后在读取文件内容时,不出意外的也报错了~

with codecs.open(rootdir+'/'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值