1 中文文本数据集预处理
假设现在需要判断一封邮件是不是垃圾邮件,其步骤如下:
(1) 数据集拆分成单词,中文分词技术;
(2) 计算句子中总共多少单词,确定词向量大小;
(3) 句子中的单词转换成向量,BagofWordsVec;
计算 P(Ci),P(Ci|w)=P(w|Ci)P(Ci)/P(w),表示 w 特征出现时,该样本被分为 Ci 类的条
件概率;
判断 P(w[i]C[0])和 P(w[i]C[1])概率大小,两个集合中概率高的为分类类标。
下面讲解一个具体的实例。
2 数据集读取
假设存在如下所示