四大方面
通过数据洗清、分词、词性标注、去停用词四个大的方面来完成语料的预处理工作。
1.数据洗清(不感兴趣的视为噪音的内容清洗删除):
a.繁体转简体
b. emjoi表情符以及各种特殊字符(参见百度贴吧类似)以及\n \t 空格符
c.标点符号
d.drop 句子中不包含中文的句子/ drop 3<长度<30的句子
2.分词(jieba)
3.词性标注:给每个词或者词语打词类标签,如形容词、动词、名词等,这样做可以让文本在后面的处理中融入更多有用的语言信息。但是文本分类可以不用关心词性问题,类似情感分析(个人助手)、知识推理(人物关系图谱)却是需要的。
4.去停用词:指对文本特征没有任何贡献作用的字词,比如标点符号、语气、人称等一些词。但在情感分析中,语气词、感叹号是需要被保留的,因为对表示语气程度、感情色彩有一定的贡献和意义