【大数据部落】文本挖掘:twitter推特LDA主题情感分析

原创 2017年08月10日 22:43:13
原文:mp.weixin.qq.com/s/Sqzihz6Awvce8UfjhVcOqg

Is known as the "saishang Jiangnan," said the hot tweet in Ningxia (hot tweet, Twitter in the popular tweet refers to the push or the collection of tweets, compared to ordinary tweets greater influence) The analysis.
Researchers found that the topic of concern to users, while listening to everyone's attitude and emotion. Based on the analysis of 135,592 Twitter users' online news, we have found some noteworthy content.

对素有“塞上江南”之称的宁夏热门推文(hot tweet,推特中的热门推文是指被转推或被收藏过的推文,相比普通推文影响力更大)进行了分析。
研究人员发现网友们关注的主题,同时倾听大家呈现出来的态度及情感。根据对135,592条推特用户自主在线发布消息的分析,我们发现了一些值得注意的内容。

▍“消费购物” 成为关注度最高主题, 超过十分之一的推文与饮食有关

 

可以看到,热门推文中有关的主题有4个,根据场景的不同分别为“消费购物”、“工业经济”、“健康养生”、“休闲生活”。 有关消费购物的推文所占比例最高,推特用户中最关心的宁夏议题是消费购物。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

属于消费购物类的主题包括Market, oilsoil,food,wolf berries,drinking,wine,共6项,所占比例为32.6%;

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

属于工业经济的包括energy, automous ,industry, coal , province等5个主题, 所占比例为26.4%。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

属于健康养生的主题包括living , heal ,nural, antioxidant , goji ,dried,共计6个,所占比例为21%。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

属于休闲生活的主题包括twter , instagram ,pic, youngliving , shot,共计5个,所占比例为20%。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

消费购物词云中,我们发现驴友爱买的宁夏特产,如干红葡萄酒、枸杞酒、贺兰石等。

工业词云中,我们发现煤炭是宁夏的优势矿产资源。宁夏境内能源资源丰富,可利用的有石油、天然气、煤层气、水能、风能、光能等。这些资源为宁夏建设能源基地提供了强有力的保证。

健康养生词云中我们发现作为宁夏特产的枸杞,具有一定的养生抗氧化功效。

休闲生活词云中,我们发现宁夏作为旅游胜地,吸引了大量年轻人前来拍照游玩。

▍热门推文总体上以积极正向为主

 

 

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

从变化的情况来看,2016年的推文积极正面的评价比例最低,为42%,消极负面评价的比例为58%,是历年来最高的。

通过2016年推特的关键词,我们发现负面的议题包括:驴友评论宁夏干燥的天气、宁夏部分地区牺牲环境换发展、以及导游强迫购物现象

 

 

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

按照四个主题来看,在健康养生议题中,积极正面的评价为77.05%,略高于其他议题中正面评价的比例。同时可以看到休闲生活的负面评价比例最低。

 

热门推文中只有四分之一表现出了明显的情感

 

识别情感时,共有六种情感:anger(愤怒)、disgust(厌恶)、fear(恐惧)、joy(喜悦)、sadness(悲伤)和surprise(惊奇),在分析时会先为每条推文的每种可能情感打分。

如果六种情感可能性得分相差不大时,则情感类拟合为unknown(未知)。 如果某条推文被拟合得到某一类情感,该情感一定是强烈的情感。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

从情感分析的结果来看,只有25.54%的推文表现出了强烈的情感。近四分之三的推文都没有表现出强烈的情感,情感拟合为unknown。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

历时来看,随着时间的推移,热门推文表现出强烈情感的比例越来越多。在2008年,只有30.3%表达出了强烈的情感,而2016年,这个比例已经提升到42.8%。这表明,就宁夏地区议题而言,推特用户越来越倾向于表达出强烈的情感。

从情感的比例情况来看,喜悦高居第一位,且有上升的趋势

 

从所表达出来的情感来看,比例最高的情感是喜悦,占比16.19%;其次为悲伤,占4.49%。

【大数据部落】文本挖掘:twitter推特LDA主题情感分析

joy呈现出逐年提高的趋势, 这说明热门推文中,含有喜悦情感的比例越来越多,而sadness呈现出小幅上下波动减小的态势。

大数据部落——中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务
统计分析和数据挖掘咨询服务 :y0.cn/teradat(咨询服务请联系官网客服
点击这里给我发消息QQ:3025393450

【服务场景】   
 
   
科研项目;
   
   
公司项目外包。
【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务
【大数据部落】大数据部落提供定制化的一站式数据挖掘和统计分析咨询服务
分享最新的大数据资讯,每天学习一点数据分析,让我们一起做有态度的数据人【大数据部落】大数据部落提供定制化的一站式数据挖掘和统计分析咨询服务
微信客服号:lico_9e
QQ交流群:186388004

【大数据部落】r语言电商网站爬虫
【大数据部落】r语言电商网站爬虫

版权声明:本文为博主原创文章,未经博主允许不得转载。咨询链接:http://y0.cn/teradat https://blog.csdn.net/qq_19600291/article/details/77074563

Twitter-LDA (只是为了mark)

只是为了mark 样例code用(java): https://github.com/minghui/Twitter-LDA stop word 很重要,把长尾的词加进来  alpha_g参数...
  • xiuchixc
  • xiuchixc
  • 2018-02-06 18:51:08
  • 139

概率语言模型及其变形系列(2)-LDA及Gibbs Sampling

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping...
  • yangliuy
  • yangliuy
  • 2012-12-17 13:08:30
  • 58645

NLP︱LDA主题模型的应用难题、使用心得及从多元统计角度剖析

将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了。多元学的时候聚类分为Q型聚类、R型聚类以及主成分分析。R型聚类、主成分分析针对变量,Q型聚类针对样...
  • sinat_26917383
  • sinat_26917383
  • 2016-08-17 18:55:28
  • 5825

概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现

本系列博文介绍常见概率语言模型及其变形模型,主要总结PLSA、LDA及LDA的变形模型及参数Inference方法。初步计划内容如下第一篇:PLSA及EM算法第二篇:LDA及Gibbs Samping...
  • yangliuy
  • yangliuy
  • 2013-01-28 17:41:09
  • 39310

【大数据部落】文本挖掘:LDA模型对公号文章主题分析

原文:https://mp.weixin.qq.com/s/VpnUf7FaEFEagQ5v0aBPig 关注我们请点击上方"拓端数据"↑ 当手机称为人们的随身设备,改变人们的通讯习惯时,“公...
  • qq_19600291
  • qq_19600291
  • 2017-07-13 22:17:34
  • 573

LDA文本建模(4)——算法细节、伪代码、实现

上面的产生过程简单描述为:
  • mmc2015
  • mmc2015
  • 2015-04-13 13:44:51
  • 3278

情感分析与观点挖掘总结笔记(一)

总结自《SentimentAnalysis-and-OpinionMining》第一章1.2.1情感分析的不同分析层次 根据目前的研究现状,一般可以将情感分析调查分为三个主要层次 一、文本文档层次...
  • liuyuemaicha
  • liuyuemaicha
  • 2017-01-06 10:49:14
  • 8865

LDA理解以及源码分析(一)

LDA系列的讲解分多个博文给出,主要大纲如下: LDA相关的基础知识 什么是共轭 multinomial分布 Dirichlet分布 LDA in text LAD的概率图模型 LDA的参数推导 ...
  • pirage
  • pirage
  • 2015-12-09 17:27:15
  • 8338

【分享】推特数据流(tweet stream)

抓取了Twitter上一周时间的随机的tweets (1%-10%),剔除了转发类数据(不含RT @),数据大小为3G, 压缩后1.1G。 仅供学术研究,谢绝商业目的使用。 ...
  • tianshi_1105
  • tianshi_1105
  • 2014-01-20 14:36:41
  • 704
收藏助手
不良信息举报
您举报文章:【大数据部落】文本挖掘:twitter推特LDA主题情感分析
举报原因:
原因补充:

(最多只允许输入30个字)