文本挖掘:LDA模型对公号文章主题分析案例报告

89 篇文章 0 订阅
19 篇文章 0 订阅

原文链接:http://tecdat.cn/?p=2175/

原文出处:拓端数据部落公众号

 

案例1 

早在1995年比尔·盖茨就在《未来之路》里说过:未来没有配套智能家居的房子,就是毛坯房。当你还在纠结“人工智能”安利值不值得吃,最近不少朋友家里又出现智能门锁,相比传统门锁来说,究竟能有多智能?

早在1995年比尔·盖茨就在《未来之路》里说过:未来没有配套智能家居的房子,就是毛坯房。现在人们生活越来越便捷,人们也更加倾向于智能化家居,当你还在纠结“人工智能”安利值不值得吃,最近不少朋友家里又出现智能门锁,相比传统门锁来说,究竟能有多智能?

tecdat研究人员对各大电商平台海量用户的评价数据进行分析,得出智能门锁剁手攻略。

1

语义透镜

顾客满意度和关注点

我们对于评价数据进行LDA建模,就是从语料库中挖掘出不同主题并进行分析,换言之,LDA提供了一种较为方便地量化研究主题的机器学习方法。


相关视频:文本挖掘:主题模型(LDA)及R语言实现分析游记数据

文本挖掘:主题模型(LDA)及R语言实现分析游记数据

时长12:59


我们使用最大似然估计进行最优化主题个数的选取。当主题个数定为20的时候,似然估计数最大,即留言板数据分为20个主题的可能性比较大。将模型生成的20个主题中的高频词取出。

图表1

根据各个主题的高频关键词,大概可以将顾客关注点分成5个部分:商家品牌、价格质量、客服师傅、使用便捷性和包装物流。从上图,我们发现用户关注的点主要集中在客服对商品问题的耐心解答,师傅对门锁安装的指导以及包装和物流上。

我们也发现不少顾客的评论反映出智能门锁的便捷性(e.g.不用带钥匙)和先进(e.g.指纹识别度高)。同时我们没有发现安全性相关的高频词汇。

2

顾客抱怨

质量、客服服务和物流

接下来,我们对不同价格和主题的顾客抱怨率进行比较。

图表2

从价格方面我们发现价格低于2000的智能门锁购买量最多,同时抱怨率也较高,根据关注点来看,顾客抱怨点主要集中在商品质量和客服的耐心程度。购买量位于第二的价格是高于4000的区间,整体抱怨率最低。购买量位于第三的是2000-3000区间,该区间顾客抱怨点主要集中在商家品牌与物流。最后是3000-4000区间,该区间顾客抱怨点主要集中在价格质量与物流。同时反映出顾客对智能门锁价格有较高心理预期,主要抱怨点在质量、客服服务和物流上。

3

自营非自营

价格和满意度

图表3

从左图可以看出自营和非自营商品在顾客满意度上相差不大,非自营商品的满意度要略高于自营商品。同时可以看到大于4000区间的顾客满意度最高,且都是非自营商品。

从右图中,我们可以看到满意度关于价格的回归预测结果。图中红线表示的是自营商品,在3000以下的区间,价格越高,满意度反而下降,高于3000的区间中,价格越高,满意度越高。在非自营商品中,3000以下的价格区间中,价格和满意度关系不明显,高于3000的价格区间中,价格越高,满意度越高。

从前文中,我们发现价格低于3000的商品抱怨率最低的点在于便捷和使用高效,因此给人的感觉性价高,满意度较高,而价格接近3000时,顾客对客服、物流、质量等预期更高,因此容易成为抱怨的重灾区。当价格接近和高于4000时,商品的品牌、质量往往又得到保证,因此满意度又上升。

案例2 

随着网民规模的不断扩大,互联网不仅是传统媒体和生活方式的补充,也是民意凸显的地带。领导干部参与网络问政的制度化正在成为一种发展趋势,这种趋势与互联网发展的时代需求是分不开的。

人民网《地方领导留言板》是备受百姓瞩目的民生栏目,也是人民网品牌栏目,被称为“社情民意的集散地、亲民爱民的回音壁”。

基于以上背景,tecdat研究人员对北京留言板里面的留言数据进行分析,探索网民们在呼吁什么。

1

数量与情感

朝阳区群众最活跃

图表

从上图可以看出不同地区留言板的情感倾向分布,总的来说,负面情感留言数目和积极情感相差不多,负面情感留言较多,占比46%,积极情感留言占比42%,中立情感的留言占比11%。

从地区来看,活跃在各大媒体的“朝阳区群众”留言数目也是最多的,其次是海淀区,昌平区。因此,从情感分布来看大部分留言还是在反应存在的问题,而不是一味赞美或者灌水。

2

主题分析

外地户口问题呼声最高

接下来,我们对于语料进行LDA建模,就是从语料库中挖掘出不同主题并进行分析,换言之,LDA提供了一种较为方便地量化研究主题的机器学习方法。

我们使用最大似然估计进行最优化主题个数的选取。当主题个数定为20的时候,似然估计数最大,即留言板数据分为20个主题的可能性比较大。将模型生成的20个主题中的前五个高频词取出,如下表所示。

图表

然后我们将占比最高的前六个主题与它们的情感倾向进行分析。

图表

从上图可以看出大家关于6大主题的讨论:

主题1反应孩子,外地户口办理的问题是最多的,反应了外地落户北京相关的难题(e.g.父母在京工作20多年,儿女上学却因户口问题不能进入好的高校就读)。

主题2是反应环境改造及棚户改造(e.g.棚户房屋破旧、墙面潮湿、上下水管道老化腐烂现象严重经常造成跑冒滴漏,遇到雨雪天气,道路积水、泥泞不堪,大院居民尤其是老人小孩出行非常不便)。

主题3是反应高考和医保(e.g.外地人衷心的希望政府能关注一下孩子在北京的高考问题)。

主题4是汽车摇号政策(e.g.现行的摇号方案是不可行,治标不治本.有的摇号是一个人摇不上,全家人都出动;有的是想买车根本摇不号;有的是不想买车就摇上了)。

主题5是反应工资和租房问题(e.g.我是外地退休教师。因为孩子在北京工作,故到北京帮助孩子料理家务,以支持孩子工作。因为北京房价昂贵,我们买不起大房,三代人只能挤着住。我想问问市长,我们是否也能住公租房)。

主题6是违法建筑(e.g.XX雅苑许多一层业主私搭乱建成风,且物业无能,造成极大的安全隐患)。

3

地区、主题与情感得分

接下来我们分析了不同主题和地区的情感倾向分布。从下图可以看出,主题3高考和医保、主题6 违法建筑、主题13教育拆迁的留言内容中积极情感占较大比例。

图表

我们发现在不同主题中情感得分最高的地区中海淀区最多,其次是朝阳区和大兴区。同时也可以发现,情感得分最高的是在主题11居民生活下的朝阳区留言内容。总的来说,根据积极情感的内容分布来看,主题3高考和医保、主题6 违法建筑、主题13教育拆迁的留言内容中表现出较好的反馈。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值