未明学院学员报告:喜马拉雅APP上,原来大家最爱听的是……

未明学院商业分析训练营

优秀学员报告

《基于喜马拉雅听书的内容付费研究》

小组作者:沈心迪 朱姝媛 郭亦然

2016年被称作“知识付费元年”,各类平台开始尝试开展知识付费的活动,其中喜马拉雅是人均启动次数最多的知识付费平台。在免费知识共享方面,喜马拉雅也有着不菲的成就。

作为一个原创音频发布平台,喜马拉雅涵盖了新闻、财经、科技、娱乐、文化等多方面内容,越丰富的内容意味着越广阔而复杂的受众。

你是否想知道:

喜马拉雅平台上收听量最高的榜单是什么?

都市白领们最喜欢听什么节目?

谁最爱听鬼故事?

上班族最愿意为哪类音频节目付钱?

未明学院商业分析训练营学员通过画像分析、模型建构等方法,对爬取并清洗后的喜马拉雅免费经典榜和付费畅销榜两个榜单上节目的收听量、标签、专辑介绍等的差异和内容特征进行分析,让用户通过大数据更直观地看到喜马拉雅听书上的众生相。

免费经典榜与付费畅销榜收听量差异

基于清洗后的喜马拉雅榜单数据,我们把各大榜单对应的收听量进行了可视化(上图),同时又将免费经典榜和付费畅销榜单独做了对比(下图)。

通过免费榜与付费榜中节目收听量的对比发现免费经典榜的总收听量远超于付费畅销榜的。鉴于中国广大普通消费者目前对知识产权的认识还不完全,为知识付费的意识还不足够,免费内容比付费内容更受欢迎很容易理解。

通过各大榜单收听量的对比可以发现付费畅销榜的收听量可以排在各大榜单中游,这对于16年才刚刚起步的付费节目而言是一个不错的成绩,可以预见随着时代的发展付费榜的收听量会迎来高速增长。

免费经典榜与付费畅销榜热门内容差异

为了更清晰地对比免费经典榜和付费畅销榜的受欢迎内容,我们把两类标签分别提取出来,并做了两个分词云图。

付费经典榜标签词云图

上图为付费畅销榜标签的词云图,我们可以观察出热门标签有上班族都市睿智幻想悬疑脱口秀等。

由下图可以得出,与治愈灵异故事文学悬疑歌单脱口秀等标签相关的内容是免费经典榜中较为受欢迎的。

免费经典榜标签词云图

通过对比两张词云图,我们发现无论是付费还是免费,悬疑和脱口秀相关的内容都比较受欢迎。

自定义最受欢迎内容及相似性分析

此外,我们也根据喜马拉雅免费和付费产品的总标签,绘制出了一张总的词云图(上图)。

通过词云图的分析我们可以直观地发现,在喜马拉雅产品的标签中,出现频次最多的标签有上班族睿智幻想都市脱口秀悬疑等。这可以在一定程度上反映出当下都市上班族的喜爱和偏好。

同时,考虑到喜马拉雅听书作为一种比较流行的电子化产品,其主要受众主要是都市的上班族等,因此我们将其最受欢迎内容自定义为:上班族、睿智、幻想,并据此进行相似性分析向用户推荐一定数量的作品。

我们采用余弦相似度分析的方法,将所有的标签向量化,与我们自定义的最受欢迎内容进行相似性分析,同时设定相似度应大于0.5。

最后我们得到了2条符合条件的推荐结果,它们分别是将夜|电视剧同步热播《兔子必须死》| 贱兔子爆笑修仙,同时从它们各自的主播粉丝数量来看,均达到了几十万甚至上百万,从而说明我们的分析结果是比较合理的,这两款产品非常受欢迎,且适合上班族。

主题分析

同时,我们还采用LDA主题模型对喜马拉雅产品的介绍数据进行了主题分析,查看书籍介绍中所经常涉及到的最主要的10个主题。主题分析的结果如下:

1一个 主播 作者 内容简介 小说 代表作 简介 演播 作家 网络 

2学习 内容 故事 老师 解答 朋友 成长 记忆 事 小伙伴

3…   发现 关注 美好 爱 新闻 一种 音乐 角色 

4故事 一部 人生 带 30 开启 集 这是 都市 书

5课程 适合 课 提升 知识 方法 文化 历史 时间 内容

6月 听 请 添加 ~ 音频 专业 日 点击

7生活 讲 感兴趣 职场 轻松 思维 世界 关系 孩子 智慧

8公众 号 微信 搜索 bestxmly 有声书 购买 环节 即可 形式

9听 世界 中国 故事 — 节目 20 方式 专辑 一个

10付费 精品 分享 须知 电话 客服 成功 随时 页面 充值

通过对这10个主题的分析我们可以发现,一些主题只是关于喜马拉雅的作品的无关介绍,所以我们将其忽略,只考虑有关介绍,并且通过那些关键词进行主题概括。

因此我们可以将书籍介绍中经常涉及到的主题归为以下几个:

1关于老师、朋友和学习的成长故事

2发现、关注美好的新闻、音乐、角色等

3一部开启30岁人生故事的都市书

4适合提升知识的课程(历史、文化方面)

5讲感兴趣、轻松的有关生活、职场、孩子的故事

6听世界、中国故事

7付费精品

结论

本项目通过一系列的数据分析方法,从收听量热门标签专辑介绍的主题三个维度对喜马拉雅听书软件的免费和付费内容进行了深入剖析。通过Tableau的数据可视化展示,我们可以清晰地比较出免费榜单的收听量远远高于付费榜。

我们提取出产品的标签并绘制了总的标签词云图和免费付费产品分别的词云图,由此发现免费付费的畅销产品标签均有悬疑脱口秀,而二者综合起来最受欢迎的产品标签包含上班族睿智幻想

之后我们根据综合最受欢迎的三个标签,采用余弦相似度方法做了相似性分析并由此得出可向用户推荐的作品:将夜兔子必须死

最后我们也通过LDA模型进行产品的主题分析,概括出了七种常涉及的主题。

局限与展望

局限

爬取的数据为横截面数据,只能横向对比,不能很好地比较出免费榜和付费榜的发展趋势,整体分析不够完整。

数据中可选择变量较少,且存在异方差和严重的多重共线性,不能完成线性回归模型分析。

展望

建议制作者可以参照热门标签来制作节目,以迎合市场需求。

对于定位为冷门题材的节目,在锁定其小范围的客户群体的同时,可通过多种宣传途径提升其曝光率,从而提升其收听率,如可以适当放在主页滚动推送页面。

针对付费榜单的标签数远高于免费榜的现象,一方面对免费节目可以考虑更多元的推送,通过免费节目来吸引更多的客户群体,形成客户黏性;另一方面,因为喜马拉雅的盈利主要来源于知识付费,所以可以对一些免费产品推出一些升级的付费服务,同时对于付费项目可以通过个性化定制等方式更好地适应客户需求,提升产品质量和用户体验,适应当下的社会热点和流行趋势。

针对相似性分析,我们发现标签数越多往往会影响相似性结果,所以建议在给产品制定标签时,数量不应过多,3个为宜,同时应尽可能地突出其主要特征,以和热门标签相契合。

针对主题分析,一方面可以按照LDA模型总结的几大主题类型分别设置主题专栏,并将栏目分类方便客户搜索;另一方面,可以发现总结的几大主题依旧比较局限,且各自间有所交叉,可以在以后更多地拓展新的主题类型

以上就是本次报告的全部内容。大数据是否为你提供了一个看待世界的新视角呢?

期待学员们用更多作品发掘出大数据的魅力,享受分析世界的快乐。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值