一、数据清洗
1.1 预处理
1)数据处理工具的选择: 一般选用数据库处理和Python等工具处理。
2)查看数据的元数据以及数据特征
1.2 缺省值处理(删除、补全)
缺省值处理的一般步骤:确定缺省值范围、去除不需要的字段、填充缺省值内容(经验值、均值、中位数、众数、推测值)、重新获取数据。
1.3 格式、内容错误的数据(修改、删除)
1.4 逻辑错误的数据(修改、删除)
1.5 不需要的数据(删除)
1.6 关联性验证
二、文本数据处理
1、词袋法、词集法
1)词袋法。词袋法计算文档中每个单词出现的次数(词频)。
2)词集法。词集法是判断单词是否出现在文档中,出现就为1,否则为0。它是考虑到文档次数相差太大的时候,词袋法不适用的情况。
2、TF-IDF(词频-逆文档频率)
1)词频-逆文档频率。
TF-IDF认为:单词的重要性随着它在文本中出现的次数成正比增加,也就是单词的出现次数越多,该单词对于文本的重要性就越高。同时单词的重要性会随着在语料库中出现的频率成反比下降,也就是单词在语料库中出现的频率越高,表示该单词与常见,也就是该单词对于文本的重要性越低。
2)计算公式
TF-IDF=TF*IDF
其中,TF=文档中词出现的次数/文档中词的总个数;IDF=log(总的文档个数/出现该词的文档数量+1),这里的-1操作主要是防止分母为0(也就是说出现该词的文档数量为0)
3)WordToVictor(直接转化为词向量)