一、数据特征准备
1选取汉语词典(包含常用词,姓名等) -> one hot 向量
2选取停用词词典 ->去除停用词的影响
3选取同义词词典 ->增加表达多词同意的能力
4选取比较长的固定搭配词典,比如成语,乐队名字等,增加分词正确率
通过以上词典将每一句评论转换成one hot 向量,作为训练数据与测试验证数据集
二、spark 训练
使用spark的朴素贝叶斯训练数据
import sparl.mllib.classification.NaiveBayes
NBmodel = NaiveBayes.train(train_data)
三、在测试集上预测
result = NBmodel.predict(test_data)
四、评估模型
非垃圾评论 | 被识别为非垃圾 | 被识别为垃圾 |
---|---|---|
35000 | 34800 | 200 |
垃圾评论 | 被识别为垃圾 | 被识别为非垃圾 |
---|---|---|
10000 | 8300 | 1700 |
非垃圾识别精准率:
P=3480035000