用mysql做文本挖掘_用Rapidminer做文本挖掘的应用:情感分析

在Process Document运算符下,发生嵌套操作,例如对单词进行标记,过滤停止单词。

然后使用两个运算符,例如Store和Validation运算符,如图1所示。Store运算符用于将字向量输出到我们选择的文件和目录中。验证算子(交叉验证)是评估统计模型准确性和有效性的一种标准方法。我们的数据集分为两个部分,一个训练集和一个测试集。仅在训练集上训练模型,并在测试集上评估模型的准确性。重复n次。双击验证运算符。将有两个面板-培训和测试。在“训练”面板下,使用了线性支持向量机(SVM),这是一种流行的分类器集,因为该函数是所有输入变量的线性组合。为了测试模型,我们使用“应用模型”运算符将训练集应用于我们的测试集。为了测量模型的准确性,我们使用“

Performance”运算符。

然后运行模型。类召回率%和精度%的结果如图5所示。模型和向量单词表存储在存储库中。

a4c26d1e5885305701be709a3d33442f.png

图5

然后从之前存储的存储库中检索模型和矢量单词表。然后从检索单词列表连接到图6所示的流程文档操作符。

然后单击“流程文档”运算符,然后单击右侧的编辑列表。这次,我从网站添加了5条电影评论的列表,并将其存储在目录中。为类名称分配未标记的名称,如图7所示。

Apply

Model运算符从Retrieve运算符中获取一个模型,并从Process文档中获取未标记的数据作为输入,然后将所应用的模型输出到“实验室”端口,因此将其连接到“

res”(结果)端口。结果如下所示。当您查看《悲惨世界》时,有86.4%的人认为它是正面的,而13.6%的人认为是负面的,这是因为评论与正极性词表的匹配度高于负面。

a4c26d1e5885305701be709a3d33442f.png

图8

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值