产品运营 | 浅谈漫画平台的数据与智能

640?wx_fmt=gif

李润超于2015年加入快看漫画,是快看漫画的联合创始人,目前主要负责技术、产品、人事等团队。

 

李润超任职的快看漫画创立于2014年12月,是国内首个专注于移动端的漫画阅读平台。成立仅三年,迅速以条漫、高清、全彩等特点获取了大量年轻用户。截止到2018年1月,快看漫画总用户量达1.3亿,月活近4000万,日活近1000万。

 

在11月17日的极光开发者大会上,李润超带来了《漫画平台的数据与智能》的主题演讲。

 

他的演讲主要包含以下几方面内容:

1. 快看漫画是谁

2. 漫画层面数据和智能的应用

3. 平台层面数据和智能的应用

 

640?wx_fmt=png

 

漫画平台的数据与智能

主讲人:快看漫画联合创始人李润超

 

大家好,我是来自快看漫画的李润超,今天给大家分享的是漫画平台的数据和智能。

 

漫画平台首先是内容平台。可能大家会有疑问,快看漫画作为一个内容平台,它的数据和智能有什么特殊之处。其实正是漫画的特殊之处决定了漫画平台的数据和智能的特殊性。

 

漫画有什么特殊之处呢?相比较其它的短内容平台,漫画首先是一个连载型的作品。我们是一话一话地去追一个作品,而不是一口气看完了一个作品的完整故事。除了连载性之外,还有一点也是由连载性衍生出来的,就是漫画作品的总量非常少。我们曾经抓取过全网的漫画作品,中国全网的漫画作品不去重的情况下总共只有不到二十万部,去重之后数量可能要砍掉一半以上。所以说整个的漫画作品的总量是非常低的。在低总量的平台和连载型的作品形态下,我们对于大数据的应用和人工智能的应用方式也产生了一些变化,我们要更着重关注漫画作品的整个生命周期和承载漫画作品的平台。

 

所以今天我的分享大体上分为两个部分。第一个部分介绍在漫画方面,数据和智能的应用,第二个部分介绍在平台的方向上,数据和智能的应用。

 

快看漫画是谁

快看漫画已经是中国最大的原创漫画平台。我们整个漫画平台上共有近千位的签约作品,产生了近两千部的漫画作品。刚才我提到全网有20万部作品,而快看只有两千部,这个是百分之一的一个量级。快看只通过百分之一的漫画作品就取得了非常优异的成绩,我们有近一千万的日活,近四千万的月活,总用户量突破了1.3亿。

640?wx_fmt=jpeg 640?wx_fmt=jpeg

通过引用极光的数据可以证明,我们在漫画行业内稳稳得坐在了第一名。左侧的图是漫画前五名的DAU的数据,右侧这张图是漫画app渗透率数据。大家简单做个加和就能看到,我们的量级比第二名到第五名的加和还要大,我们的市场占有率可以说已经突破了50%。


除了在线上取得了不错的成绩外,我们在线下也取得了不错的成绩。15年-18年,我们连续四年在广州突破这个城市的签售记录,每场签售人数过万,漫画作者享受到了像明星一样的待遇,被簇拥着,被送礼物。签售的主角是图书,其实除了图书,我们对IP书画方向也进行了很多尝试。

 

我们对15年的头部作品《快把我哥带走》进行了较完整的孵化,拍成了动画片、网剧、真人电影。

 

《快把我哥带走》是我们既以成名作品的一个孵化案例,但是在快看漫画这个平台上还有大量的其它作品,这些作品并没有进行完整的孵化。在没有完整孵化的情况下,我们尝试了一些虚拟衍生。例如《怦然心动》这部作品,今年我们尝试在OPPO、vivo、三星等平台上做相关壁纸的下载。超过我们的想象,《怦然心动》壁纸的月销售额突破了百万。

 

这些已成名作品或待开发作品所取得的成绩,说明了漫画不仅仅是漫画了,它已经是新生代针对年轻人的一个重要内容来源。而且漫画IP的影响力也已经是当前最具影响力的IP形态之一,漫画具有很大的商业潜质。

 

介绍了这么多漫画,再给大家说一说我们的数据规模。我们每天核心事件的上报数量都超过十个亿。这个事件埋点上线一年多,已经有累计接近5000亿条的数据上报量。另外,在我们核心系统24小时请求的监控图里, QPS峰值超过每秒170万次,系统全天的请求接近一千亿次。正因为有了这样的数据规模,快看才得以在大数据和人工智能方向进行一些尝试。

 

介绍了这么多,大家会想到也能够理解到,快看首先是一家内容公司,然后才是一家技术型公司。在快看创立的早期,整个公司都以内容型人才为主,而内容型人才又以女性为主。我作为最早加入公司的几个工程师之一,初到公司感到很夸张的一件事是,上厕所找不到地方,为什么找不到地方呢?跑遍整个楼层发现只有女厕所,而没有男厕所…

 

今天这一切都已经改变了,我们产研团队达到190人的规模,技术研发团队成为公司第一大部门。我们有一半的资金都投入到研发的方向,数据和智能是目前研发的重点方向。在未来的一年里,我们计划在深圳或者广州成立第二个研发中心。


漫画层面数据和智能的应用

现在我要回归正题了,前面说过我要分漫画和平台两个方向去介绍我们的数据和智能。接下来我先介绍漫画的部分。

 

首先,我们了解一下漫画的生命周期。一个漫画的生命周期大体上可以分为四个部分。第一个部分漫画的诞生和生产,第二个部分是签约和上架,第三个部分是上架之后进行的数据监测,第四个部分是由于数据表现很好,我们开始进行IP孵化。

 

传统的模式之下其实没有大数据和人工智能的参与。大家可以看到,作者供稿给我们,我们的编辑进行人工评级,或者由我们的制作人团队产生命题,发出任务,让我们合作的工作室和个人进行试稿,这样就完成了整个生产和诞生的流程。一旦上架之后,编辑会每天盯着数据看作品的评论量多少、点赞量多少,浏览量多少。一旦我们觉得一个作品的数据表现不好,我们就开始要求作者进行优化调整。如果调整持续一段周期,数据还不好就下架。其实前面提到快看只有近两千部作品,占整个全网平台作品总数的百分之一,为什么快看的作品数量这么少?因为我们始终坚持精品的原则,所以下架对我们来说是最一件相对平常的事情。

 

如果一个作品的数据持续看好,到了一定程度,我们就开启它的周边孵化。最简单的周边孵化就是图书,图书之外,刚才提到了动画、网剧、电影,也可以做游戏和周边的售卖和形象的授权。这就是一个漫画的传统生命周期。

 

了解了漫画的生命周期,大家可能也就开始想了解数据和智能如何在漫画的整个生命周期中起到作用。在座很多人可能都看过一个很有名的美剧《纸牌屋》,但大家可能不知道的是,早在2012年的时候,Netflix就宣布这部作品会采用大数据和人工智能进行辅助创作,根据分析行业特点和流行趋势去制作这部作品。《纸牌屋》在2013年第一季上映的时候一举成名,也证明了Netflix在数据和智能辅助创作方向所取得的成就。

 

Netflix如何能做到这一点,根据快看漫画目前的实践,我们认为可以主要归结为两点。

 

第一点,你要有一个能够解构作品的标签体系。标签在所有的推荐系统里都很常见,但是大多数常见的标签体系并不是用来解构作品,而我们要求创建的标签体系是需要用来解构作品的。

 

截至目前,快看的标签体系有超过20个维度,大多数维度下都有超过百个的标签。我们对标签的要求,首先是维度上的,我们要求所有的维度度之间尽量是正交的,维度和维度刻划的是不同的事情。此外我们对于一个维度下的标签也提出了更高的要求,我们希望一个维度下的标签和标签之间是尽量不相关的,标签和标签之间覆盖的作品是交集越小越好。这样我们才能构建出一套有效的能够解构作品的一个标签体系。

 

这个标签体系的构建过程也是十分漫长的。我们的编剧和制作人团队要将他们过去二、三十年看过的作品全部拿出来分析,看能够创建出哪些标签和维度。分析完这些标签之后,我们初步对所有的作品打标签,这些都是人工进行的。接下来我们开始利用大数据挖掘,看能不能挖掘出一些新的标签或者新的维度。

 

这个标签体系如何应用呢?我下面举几个例子。

 

定制化制作:当我们对大量作品进行整体分析之后,假设会看到恋爱、爆笑、剧情、奇幻是比较火的几种类型。基于这个分类,我们可以定制化作品,要求作品具有恋爱、奇幻、校园这样的属性,然后把任务发给内容生产的个人或者团队让他们去制作。

 

提供调整方向:过去的调整主要根据编辑个人的喜好和敏感度,现在我们可以依赖这套标签体系告诉作者现在流行的趋势是什么,需要往哪个方向进行调整。

 

作品评分:我们可以依赖标签体系对投稿的作品进行自动评分。依赖这个标签体系,我们在今年2月上架了一部评分较高的作品《DOLO命运胶囊》,这部作品从2月份上架到现在,关注人数已经突破了600多万,达到了600多万的订阅人数。

 

第二点,我们需要通过数据监测,客观评价全网漫画作品。

 

这个需求怎么来的呢?我们曾经拿《怦然心动》和《一人之下》的漫画进行过比较,发现在微信指数上《怦然心动》远远高于《一人之下》,但是到了百度指数上结果刚好相反,这样就导致没办法评估究竟哪部作品更火。其实,这主要是因为其中有很多干扰因素,比如《怦然心动》其实也是一部美国电影的名字,而经过IP孵化的《一人之下》的热度也受其动画片的影响。这就要求我们建立一套体系,对作品进行完整客观的评估。

 

这个体系怎么建立呢?最初,我们想把全网的漫画平台数据全部抓回来进行监测,但是把不同平台的作品放到一个坐标系上去评价是很难的。所以,我们选择了做UGC平台监测,去监测微博、兴趣部落、贴吧等各种平台的用户讨论。

 

监测了UGC平台之后,我们也希望像Netflix一样,根据全人群的流行趋势定制作品。这种情况下,只分析漫画平台已经不够了,因为单一平台具有一定的滞后性。所以我们就把所有的长视频平台、网文平台等全部监测起来,分析当前最火的作品是什么,分别具备哪些流行元素。

 

通过以上的全网数据监测,我们输出了IP孵化的指数。孵化的第一步是商业化评估,通过这个指数,我们决定一个作品是不是该转化成付费作品或者会员作品,然后再根据之后的数据表现,看是否要进行动画化的孵化。

 

通过数据监测,我们还能预判是否开发周边,什么时候开发周边,第一批生产多少个等等,这也就催生周边售卖的指数。

 

平台层面数据和智能的应用

 快看漫画是一家To C的企业,用户增长是我们很核心的一件事情。今天我想通过一个指标来阐述快看是如何做用户增长的。

 

我们的日活跃用户构成主要有两个部分,一个部分是忠实用户,流入流出速度比较稳定,另外一个部分是每天获取的新用户,到第二天、第三天的时候会形成一定的留存,累计后就构成了某一时刻的日活。大家可以看到,日活高与低取决于留存率曲线衰减的速度,衰减得越慢每天累计得越多。另外也取决于花了多长时间做增长,能让留存率在一个水平上稳定多长时间。因此,我认为留存率和周期是决定日活的关键因素。

 

但现实往往是残忍的,不只有留存率和周期,还有个预算这个矛盾点。一般创业公司刚刚起步的时候,往往会融入一大笔钱,希望在一个周期内达到比较高的日活。随着的公司发展,大家会开始把预算拆解成单用户获取成本和用户获取量两个因素。数量和周期结合之后,我们就获得了用户的日新增量。日新增量和预算之间的矛盾在于,越大的日新增量,花的钱就越多,因为把用户的注意力从别的竞争对手那里抢过来总要付出更高的成本。但日新增量和留存率之间也不是正相关的关系。当你想要获取更多的用户,只能获取一些不属于目标定位的人群,留存率也会因此而快速下降。

 

单用户获取成本(CAC)、留存率和日新增量是影响日活的几个变量。为了决策用户的获取量,我们需要合并留存率和单用户获取成本。怎么合并呢?在留存率曲线中,我们引入了TAD,即用户在一个时间周期内能够活跃的天数。如果我要定义这个用户第一年的的活跃天数,就要把原来公式里的无穷改成365,最终这个值就是用户的年总活跃天数Annual TAD。

 

ARPU值指一个时间段内每用户平均收入,它取决于平台的产品属性、运营属性和促销策略,其上限取决于平台用户的消费能力和用户的品牌认知度、认可度。所以如果公司运营得好,ARPU值应该是稳步上升的状态。

 

接下来,我们定义了一个最终简化的模型,叫PFY,也称首年产出率。它的计算公式是PFY(Productivity of First Year) = (日ARPU × Annual TAD) / CAC。如果PFY等于1,说明这一年正好把花在用户身上的钱赚回来了。只要PFY大于1,就可以随便卡,大于0.8就赔20%。只要有了这个指标,就可以不用考虑留存率和单一获取成本,根据它来决定要获取多少用户就好了。如果你的产品没有营收,可以用某个核心指标替代ARPU,例如社区产品可以用日轮互动量代替日ARPU,这时你同样可以考核一个互动量的PFY指标。

 

至此,就不必再纠结单用户获取成本(CAC)、留存率与日新增量之间的矛盾,只要监测PFY达标就可以马力开足提高用户的日新增量。

 

我的分享就到这儿,谢谢大家。

640?wx_fmt=png

关于极光

极光(纳斯达克股票代码:JG)成立于2011年,是中国领先的移动大数据服务平台。极光专注于为移动应用开发者提供稳定高效的消息推送、即时通讯、统计分析、社会化组件和短信等开发者服务。截止到2018年9月份,极光已经为36.9万移动开发者和99.1万款移动应用提供服务,其开发工具包(SDK)安装量累计近174亿,月度独立活跃设备近10.3亿部。基于海量数据和洞察积累,极光已将业务拓展至大数据服务领域,包括精准营销(极光效果通)、金融风控、市场洞察以及商业地理服务(极光iZone)。极光将继续借助人工智能与机器学习为移动大数据赋能,致力于为社会和各行各业提高运营效率,优化决策制定。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘与数据分析? 数据挖掘与数据分析? 和数据挖掘都可以做为"玩数据"的⽅法论,两者有很多的共性,也有显著的差异。从分析的⽬的来看,数据分析⼀般是对历史数据进⾏ 统计学上的⼀些分析,数据挖掘更侧重于机器对未来的预测,⼀般应⽤于分类、聚类、推荐、关联规则等。 数据分析(狭义)与数据挖掘的本质都是⼀样的,都是从数据⾥⾯发现关于业务的知识(有价值的信息),从⽽帮助业务运营、改进产品以及 帮助企业做更好的决策. 从分析的过程来看,数据分析更侧重于统计学上⾯的⼀些⽅法,经过⼈的推理演译得到结论;数据挖掘更侧重由机器进⾏⾃学习,直接到 得到结论。 从分析的结果看,数据分析的结果是准确的统计量,⽽数据挖掘得到的⼀般是模糊的结果。 '数据分析'的重点是观察数据,'数据 挖掘'的重点是从数据中发现'知识规则'KDD(Knowledge Discover in Database)。 '数据分析、数据统计'得出的结论是⼈的智⼒活动结果,'数据挖掘'得出的结论是机器从学习集(或训练集、样本集)发现的知识规则。 '数 据分析'需要⼈⼯建模,'数据挖掘'⾃动完成数学建模。 数据挖掘与数据分析的主要区别是什么 1、计算机编程能⼒的要求 作为数据分析很多情况下需要⽤到成型的分析⼯具,⽐如EXCEL、,或者SAS、R。很多的数据分析⼈员做的⼯作都是从原始数据到各 种拆分汇总,再经过分析,最后形成完整的分析报告。当然原始数据可以是别⼈提供,也可以⾃⼰提取(作为⼀名合格的数据分析师,懂点 SQL知识是很有好处的)。 ⽽数据挖掘则需要有编程基础。为什么这样说呢?举两个理由:第⼀个,⽬前的数据挖掘⽅⾯绝⼤多数是⾪属于计 算机系;第⼆点,在招聘岗位上,国内⽐较⼤的公司挂的岗位名称⼤多数为'数据挖掘⼯程师'。从这两点就可以明确看出数据挖掘跟计算机跟 编程有很⼤的联系。 2、在对⾏业的理解的能⼒ 要想成为⼀名优秀的数据分析师,对于所从事的⾏业有⽐较深的了解和理解是必须要具备的,并且能够将数据与⾃⾝的业务紧密结合起 来。简单举个例⼦来说,给你⼀份业务经营报表,你就能在脑海中勾画出⽬前经营状况图,能够看出哪⾥出现了问题。但是,从事数据挖掘 不⼀定要求对⾏业有这么⾼的要求。 3、专业知识⾯的要求 数据分析师出对⾏业要了解外,还要懂得⼀些统计学、营销、经济、⼼理学、社会学等⽅⾯的知识,当然能了解数据挖掘的⼀些知识会 更好。数据挖掘⼯程师则要求要⽐较熟悉数据库技术、熟悉数据挖掘的各种算法,能够根据业务需求建⽴数据模型并将模型应⽤于实际,甚 ⾄需要对已有的模型和算法进⾏优化或者开发新的算法模型。想要成为优秀的数据挖掘⼯程师,良好的数学、统计学、数据库、编程能⼒是 必不可少的。 总之⼀句话来概括的话,数据分析师更关注于业务层⾯,数据挖掘⼯程师更关注于技术层⾯。 数据分析师与数据挖掘⼯程师的相似点: 1、都跟数据打交道。 他们玩的都是数据,如果没有数据或者搜集不到数据,他们都要丢饭碗。 2、知识技能有很多交叉点。 他们都需要懂统计学,懂数据分析⼀些常⽤的⽅法,对数据的敏感度⽐较好。 3、在职业上他们没有很明显的界限。 很多时候数据分析师也在做挖掘⽅⾯的⼯作,⽽数据挖掘⼯程师也会做数据分析的⼯作,数据分析也有很多时候⽤到数据挖掘的⼯具和 模型,很多数据分析从业者使⽤SAS、R就是⼀个很好的例⼦。⽽在做数据挖掘项⽬时同样需要有⼈懂业务懂数据,能够根据业务需要提出 正确的数据挖掘需求和⽅案能够提出备选的算法模型,实际上这样的⼈⼀脚在数据分析上另⼀只脚已经在数据挖掘上了。 事实上没有必要将 数据分析和数据挖掘分的特别清,但是我们需要看到两者的区别和联系,作为⼀名数据⾏业的从业者,要根据⾃⾝的特长和爱好规划⾃⼰的 职业⽣涯,以寻求⾃⾝价值的最⼤化。 数据分析与数据挖掘的区别 数据分析可以分为⼴义的数据分析和狭义的数据分析,⼴义的数据分析就包括狭义的数据分析和数据挖掘,我们常说的数据分析就是指 狭义的数据分析。 数据分析(狭义): (1)定义:简单来说,数据分析就是对数据进⾏分析。专业的说法,数据分析是指根据分析⽬的,⽤适当的统计分析⽅法及⼯具,对收集 来的数据进⾏处理与分析,提取有价值的信息,发挥数据的作⽤。 (2)作⽤:它主要实现三⼤作⽤:现状分析、原因分析、预测分析(定量)。 数据分析的⽬标明确,先做假设,然后通过数据分析来验证假设是否正确,从⽽得到相应的结论。 (3)⽅法:主要采⽤对⽐分析、分组分 析、交叉分析、回归分析等常⽤分析⽅法; (4)结果:数据分析⼀般都是得到⼀个指标统计量结果,如总和、平均值等,这些指标数据都需要 与业务结合进⾏解读,才能发挥出数据的价值与作⽤; 数据挖掘: (1)定义:是指从⼤量的数据中,通过统计学、⼈⼯智能、机器学习等⽅法,挖掘出未知的、且有价值的信

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值