基于微博用户标签的中医药情绪分析

本文最大的特点是从数据收集,自动标记,特征选择,模型训练,参数调试等最终达到优异的效果.

1. 主要内容

收集语料库和字典资源,根据用户标签自动标注数据,构建支持向量机(SVM)分类器,预测人们对中医药(Traditional Chinese Medicine ,TCM)的情绪,并提出调整分类器结果的方法,获得的F-measure的性能是97%。


2. 数据收集和打标记

(1) 对中医药感兴趣用户识别:

微波用户可以自己设置兴趣标签,筛选出下表Table 1 的类似标签用户作为目标用户.


(2) 基于用户标签的语料库收集

2014年1月,我们通过用户标签搜索了对TCM感兴趣的微博用户。如果有人在我们的搜索关键字列表中包含多个用户标签,他/她将被复制在我们的数据集中。过滤复制用户后,我们构建了一个包含48861个微博用户的数据集,表示为C.用户标签和相应数量的微博用户列于表1中。在所有标签中,42608个用户使用“中医”占87%的占主导地位,“医药材料”,“针灸”,“按摩”占有率高达8%以上。发现“中医药”是使用的主要标签,因为它是一个广泛的概念,通常不仅指中医治疗,而且包括“医药材料”,“针灸”和“按摩”。使用微博提供的应用程序编程接口(API),我们收集了用户在C发布的推文。由于API的限制,只能使用每个用户发布的最新2000个推文,我们共收集了21,242,370个博文.

(3) 两个字典

在本文中,我们介绍了两个新的资源,用于预处理中小企业微博数据主题:自定义词典和中医词典。 我们在互联网上收集了西医术语,中医术语和流行词汇,自定义词典中共有5307个词。 它可以作为汉语分词通用工具的内置字典的有用补充(分词和新词发现的准确率必须依赖有效的字典)。 中医术语词典包含中医药,中成药,中草药和针灸穴位等2715种中医术语词汇,可用于过滤微博中关于中医的话题(过滤出目标用户的关于中医药话题的推文)。

(4)数据的预处理

繁简转换等处理

(5) 标记数据

我们的原则是:用户的意见是一致的,即用户的自定义标签是支持/反对中医的,那么他/她所有的推文都是支持/反对中医的,就会被打上支持/反对中医的标记

在我们的分析中,我们通过用户标签获取了用户对TCM的意见。 用作用户标签的关键词由用户定义。 因此,即使对TCM的看法相同,用户标签也可能不同。 用于标记情绪的用户标签列在Table 2中。只有超过10个用户引用的用户标签才包括在表中。 结果,1866名微博用户被标为“中医药”,290名微博用户被标为反对中医药。 其余的没有标签,因为我们无法从他/她的用户标签获得明显的情感倾向。 根据我们的基本原则,我们根据用户对中医药的看法,标注了推文的情感。 最后,40888条推文被标记为支持中医,6975条推文被标为反对中医。 显然,数据是不平衡的,但与现实是一致的。 在我们研究的下一步中,有标记的推文将被用作训练数据集。



3.方法

本节介绍我们使用的情感分类系统的方法。 首先,使用特征选择方法来选择训练和分类的区分词汇。 然后我们用机器学习方法来建立一个情感分类器。 最后,我们根据用户对某个主题保持一致意见的基本原则,对分类结果进行了调整。

主要是特征词汇的选择(chi-square),以及分类器(支持向量机,SVM),然后是超参数的调整.

部分选取的特征词汇见Table 3:



4 结果展示



参考文献

Sentiment Analysis Based on User Tags for Traditional Chinese Medicine in Weibo(2015)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值