1 环境
R 3.0以上版本
安装机器学习软件包:
说明:此两个包是R机器学习包。RTextTools包含文本处理,e1071包含分类器。
> install.packages("RTextTools")
> install.packages("e1071")
2 实验步骤
此篇博文(最上面图是word2vec的图,与本篇博文无关)使用R语言,对文本进行分类,并且使用多种分类器。
其包含两部分,都是对句子进行情感分类。一部分使用手工添加的少量数据进行。
另一部分使用80条happy数据,80条sad数据,10条happy测试数据,10条sad测试数据(代码路径:sentiment_analyse.R)。
3 试验结果
实验一:对各个分类器初步比较,作者手工添加数据,进行预测(代码文件:sentiment_compare.R):
预测准确率:
分类器 | 准确率 |
随机森林 | 60% |
最大熵 | 60% |
决策树 | 60% |
BAGGING | 60% |
SVM | 20% |
实验二(代码文件sentiment_analyse.R):
采用bayes, MAXENT, SVM, SLDA, BAGGING, RF, TREE分类器,进行分类
结果如下:
分类器名称 | 准确率(R) | 准确率(spark) |
贝叶斯 | 65% | 95% |
随机森林 | 95% | 90% |
SVM | 95% |
|
SLDA | 75% |
|
BAGGING | 95% |
|
决策树 | 100% | 85% |
MAXENTROPY | 95% |
|
GBT |
| 90% |
Vord2vec |
| 70% |