【大数据部落】文本挖掘:twitter推特LDA主题情感分析

原创 2017年08月10日 22:43:13
原文:mp.weixin.qq.com/s/Sqzihz6Awvce8UfjhVcOqg

Is known as the "saishang Jiangnan," said the hot tweet in Ningxia (hot tweet, Twitter in the popular tweet refers to the push or the collection of tweets, compared to ordinary tweets greater influence) The analysis.
Researchers found that the topic of concern to users, while listening to everyone's attitude and emotion. Based on the analysis of 135,592 Twitter users' online news, we have found some noteworthy content.

对素有“塞上江南”之称的宁夏热门推文(hot tweet,推特中的热门推文是指被转推或被收藏过的推文,相比普通推文影响力更大)进行了分析。
研究人员发现网友们关注的主题,同时倾听大家呈现出来的态度及情感。根据对135,592条推特用户自主在线发布消息的分析,我们发现了一些值得注意的内容。

▍“消费购物” 成为关注度最高主题, 超过十分之一的推文与饮食有关

 

可以看到,热门推文中有关的主题有4个,根据场景的不同分别为“消费购物”、“工业经济”、“健康养生”、“休闲生活”。 有关消费购物的推文所占比例最高,推特用户中最关心的宁夏议题是消费购物。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

属于消费购物类的主题包括Market, oilsoil,food,wolf berries,drinking,wine,共6项,所占比例为32.6%;

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

属于工业经济的包括energy, automous ,industry, coal , province等5个主题, 所占比例为26.4%。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

属于健康养生的主题包括living , heal ,nural, antioxidant , goji ,dried,共计6个,所占比例为21%。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

属于休闲生活的主题包括twter , instagram ,pic, youngliving , shot,共计5个,所占比例为20%。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

消费购物词云中,我们发现驴友爱买的宁夏特产,如干红葡萄酒、枸杞酒、贺兰石等。

工业词云中,我们发现煤炭是宁夏的优势矿产资源。宁夏境内能源资源丰富,可利用的有石油、天然气、煤层气、水能、风能、光能等。这些资源为宁夏建设能源基地提供了强有力的保证。

健康养生词云中我们发现作为宁夏特产的枸杞,具有一定的养生抗氧化功效。

休闲生活词云中,我们发现宁夏作为旅游胜地,吸引了大量年轻人前来拍照游玩。

▍热门推文总体上以积极正向为主

 

 

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

从变化的情况来看,2016年的推文积极正面的评价比例最低,为42%,消极负面评价的比例为58%,是历年来最高的。

通过2016年推特的关键词,我们发现负面的议题包括:驴友评论宁夏干燥的天气、宁夏部分地区牺牲环境换发展、以及导游强迫购物现象

 

 

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

按照四个主题来看,在健康养生议题中,积极正面的评价为77.05%,略高于其他议题中正面评价的比例。同时可以看到休闲生活的负面评价比例最低。

 

热门推文中只有四分之一表现出了明显的情感

 

识别情感时,共有六种情感:anger(愤怒)、disgust(厌恶)、fear(恐惧)、joy(喜悦)、sadness(悲伤)和surprise(惊奇),在分析时会先为每条推文的每种可能情感打分。

如果六种情感可能性得分相差不大时,则情感类拟合为unknown(未知)。 如果某条推文被拟合得到某一类情感,该情感一定是强烈的情感。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

从情感分析的结果来看,只有25.54%的推文表现出了强烈的情感。近四分之三的推文都没有表现出强烈的情感,情感拟合为unknown。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

历时来看,随着时间的推移,热门推文表现出强烈情感的比例越来越多。在2008年,只有30.3%表达出了强烈的情感,而2016年,这个比例已经提升到42.8%。这表明,就宁夏地区议题而言,推特用户越来越倾向于表达出强烈的情感。

从情感的比例情况来看,喜悦高居第一位,且有上升的趋势

 

从所表达出来的情感来看,比例最高的情感是喜悦,占比16.19%;其次为悲伤,占4.49%。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

joy呈现出逐年提高的趋势, 这说明热门推文中,含有喜悦情感的比例越来越多,而sadness呈现出小幅上下波动减小的态势。

大数据部落——中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务
统计分析和数据挖掘咨询服务 :y0.cn/teradat(咨询服务请联系官网客服
点击这里给我发消息QQ:3025393450

【服务场景】   
 
   
科研项目;
   
   
公司项目外包。
【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务
【大数据部落】大数据部落提供定制化的一站式数据挖掘和统计分析咨询服务
分享最新的大数据资讯,每天学习一点数据分析,让我们一起做有态度的数据人【大数据部落】大数据部落提供定制化的一站式数据挖掘和统计分析咨询服务
微信客服号:lico_9e
QQ交流群:186388004

【大数据部落】r语言电商网站爬虫
【大数据部落】r语言电商网站爬虫

版权声明:本文为博主原创文章,未经博主允许不得转载。咨询链接:http://y0.cn/teradat

NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析

将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了。多元学的时候聚类分为Q型聚类、R型聚类以及主成分分析。R型聚类、主成分分析针对变量,Q型聚类针对样...
  • sinat_26917383
  • sinat_26917383
  • 2016年08月17日 18:55
  • 4615

概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping...
  • yangliuy
  • yangliuy
  • 2013年01月28日 17:41
  • 38628

概率语言模型及其变形系列(2)-LDA及Gibbs Sampling

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping...
  • yangliuy
  • yangliuy
  • 2012年12月17日 13:08
  • 57168

基于twitter文本的pyhton情感分析(所有源码和数据集)

  • 2017年08月24日 23:32
  • 9.29MB
  • 下载

android实现推特Twitter分享

android实现推特Twitter分享
  • jhope
  • jhope
  • 2016年11月23日 16:30
  • 900

LDA在短文本(twiter)应用

参考文献《empirical study of topic modeling in twitter.》 这个文章考察了LDA在twitter中的应用,用的是最原始的LDA,关键点在于如何融合出合适的...
  • windows2
  • windows2
  • 2013年12月21日 21:40
  • 2217

想看特普朗Twitter账户信息,不妨看这篇文章

除了这个指南之外,我建议你谨慎使用时区/语言,另外,你还要注意你的推文可以作为一个整体进行分析:如果不想让别人猜测到你的时区,就不要在同一时间发推。...
  • Anprou
  • Anprou
  • 2017年02月10日 14:21
  • 410

NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析

将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了。多元学的时候聚类分为Q型聚类、R型聚类以及主成分分析。R型聚类、主成分分析针对变量,Q型聚类针对样...
  • sinat_26917383
  • sinat_26917383
  • 2016年08月17日 18:55
  • 4615
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:【大数据部落】文本挖掘:twitter推特LDA主题情感分析
举报原因:
原因补充:

(最多只允许输入30个字)