实验记录
实验内容:电商产品评论数据情感分析
错误
- ROSTCM6情感分析结果乱码
解决方案:ROSTCM6要求输入文件为ANSI编码,使用python语言转码
import pandas as pd
inputfile = 'D:/pycharm/comment.txt' #评论文件
outputfile = 'D:/pycharm/comment1.txt' #评论处理后保存路径
data = pd.read_csv(inputfile, encoding='utf-8', header=None)
data.to_csv(outputfile, encoding='ANSI', header=None)
- Python pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 11,saw 2
解决方案:改变默认分隔符
这点我看了网上许多其它博主的分享,认为是用read_csv来读txt文件可能会产生错误,所以我把分隔符改为换行,每个换行就切换到下一条评论。
data1 = pd.read_csv(inputfile1, encoding='utf-8', header=None, sep='\n')#读入数据
-
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xff in position 0: invalid start byte
ROSTCM6保存的文件格式编码为Unicode,另存为utf-8就可以了 -
anaconda安装jieba
解决方案:anaconda prompt下输入命令行:
conda install --channel https://conda.anaconda.org/conda-forge jieba