数据分析岗之游戏业务类面试整理学习

⌚️200506 面试某游戏公司数据分析岗的准备

碎碎念

⚠️部分文字是整理了其他前辈的文章(具体见最后),仅用来学习,这样复习更有体系,也希望能帮助到其他同学,遵纪守法好青年~ 如果哪篇漏了也联系我,马上补上。侵删!侵删!!侵删!!!

我太喜欢邮件里的这句话了
侠行江湖论杯酒,且上西山试青峰!

⌚️200606
哈哈哈哈哈二面就挂了
但是之前整理的还是放出来
万一对别人有用呐
我自己面下来的感觉是 是个好公司
面试官有在引导回答
但是面完之后我有想 到底适不适合走游戏行业
了解游戏么?热爱么?一腔热血抵得住多久?
找工作双方选择 希望都能找到合适并热爱的


看牛客面筋


1. 概况

必看:中国统计网🐂游戏行业概况

业务类问题

产品、运营、渠道、用户、利润 数据运营专栏

2. 目标岗位 VS 简历匹配

强行拉郎配分析:-)

评估企业方我自己哈哈哈哈哈哈
地点广东珠海还行
工资拉勾上6000-10000元/月毕业实习的话还可以,反正慢慢往上爬(如果能进哈哈哈哈
岗位要求1全日制本科及以上学历,计算机、统计、数学、信息技术等相关专业优先统计✅
岗位要求2热爱游戏行业,有较丰富的游戏经验游戏经验完全不丰富❌
岗位要求3熟练运用SQL这学期学了MySQL✅ 挖坑要整理笔记
岗位要求4熟练操作办公软件全国计算机办公二级✅
岗位要求5掌握R/SAS/SPSS/Matlab等分析工具中任一种R&SPSS✅
其他某乎前辈评价大佬才有选择权,先努力上岸

1、负责业务数据、行业信息收集整理,支持业务部门运营数据需求,对多种数据源进行分析、挖掘,寻找有价值的信息;
2、提供分析报告,对游戏设计、运营活动的效果给予评估;
3、参与数据挖掘业务分析的体系化建设,推动业务发展。

3. 数据分析

(1)数据埋点

初识数据埋点

(2)数据分析

  • 游戏导量分析
  • 用户是否长期留存
  • 稳定活跃用户和获得收益

(流量分析、留存分析、充值分析、转化分析、消费分析、关卡分析、登记分析、设备分析 )

如何拆解留存和付费的数据分析思路?

在这里插入图片描述

留存

留存分析
  1. 流失率包括N分钟流失率和新手引导各埋点流失率:主要分析游戏前几分钟流失率,在推广素材方面进行优化调整;新手引导的每一步骤的引导强化优化
  2. 流失率包括关卡流失率和任务和等级流失率:用来观察游戏前期难度阶梯,发现游戏瓶颈关卡或者任务,针对前期流失率过高的关卡任务进行调整优化(数值或者奖励方面),需要后台支持查询任务/关卡分布情况以及流失率
如何提高留存
  1. 签到活动:各类签到活动是否显眼(强引导),第一天有明显诱惑力的签到类活动(送极品装备、卡牌)在玩家完成新手引导后主动弹出
  2. 装备/奖励提前预热:第一天给出的装备/阵法/宠物等 会卡等级:完成任务后给一把40级能用的武器,但是第一天只能升到38级(非R)
  3. 角色成长性:关卡任务的难度梯度设置是否合理,武将培养(升级,升星,技能升阶,装备等)方面成长性是否能直观体现出来,让玩家体验到提升的快感
  4. 长线任务:设计一个n天完成(3<n<7)的长线任务,任务奖励十分诱人
  5. 开放跳跃式成长的玩法:如英雄进阶、装备进阶,让玩家能够体验到数值飙升的快感。再控制相关产出,比如让玩家一天能够将两个英雄由白色提升到绿色,具体节奏自己体验。

付费

  1. 付费用户方面
    付费用户数量(新增&老用户) 付费率(新增&老用户) ARPU平均每用户收入(新增&老用户) 免费转付费用户的转化率,转化周期
    付费用户留存率 重复购买用户比例

这些数据会告诉你有多少付费用户?他们在总用户里的占比?人均的贡献是多少?有多少人是重复消费?付费用户会持续消费么?每天有多少付费用户流失?有多用户从少免费转为付费?当你贮备调整付费功能点,制定下一步运营策略的时候,用这些数据来做参考都是必不可少的

  1. 付费内容方面:
    首次付费场景,金额,道具等 重复付费内容的购买场景,购买等级等 付费项目偏好 道具购买分布 道具消耗分布 付费用户等级分布
    付费用户剩余金额分布

用户第一次花钱是在什么时候?游戏的哪个场景?花了多少钱?买了什么?他们的等级?剩余金额?什么样的付费内容最受欢迎?什么样的付费内容重复购买最多?什么样的付费内容使用率最高?关卡场景,玩家等级,剩余金钱会对玩家购买产生什么影响?当游戏设计者在考虑如何设置合理的收费道具及价格,提升收入的同时但又不太影响玩家付费体验的时候就需要通过收集这些数据来解答问题

(3)运营评估


4. 面筋&知识点整理

第一大类 指标拆解

  1. 费米估计问题

分析这类问题可以 分别从两个角度展开。 根据情况,可以采用 Top down bottom up 法则 ,即 先从宏观层面, 自上而下推,再由某个点横向切入,反推上去。或者也可以从需求层面和供给层面来说。然后可以对比 两次推测得到的结果,如果相差不悬殊,那基本就没差啦。然后在陈述的时候也可以需要说几句可能会出现误差 的影响因素以及对结果的影响 ,会显得思考更加全面。

1.1 估算今年新生儿出生数量

  • 采用两层模型(人群画像x人群转化):新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率 【类比 用户分层 各层转换率】
  • 从数字到数字:如果有前几年新生儿出生数量数据,建立时间序列模型(需要考虑到二胎放开的突变事件)进行预测
  • 找一些相关指标,如婴儿类用品的新增活跃用户数量
    X n X_n Xn表示新生儿家庭用户, n表示第n年的新生儿数量
    X n / n X_n/n Xn/n为该年新生儿家庭用户的转化率
    该转化率会随平台发展而发展,可以根据往年数量推出今年的大致转化率,并根据今年新增新生儿家庭用户数量 X n + 1 X_{n+1} Xn+1推出今年估计的新生儿数量。

1.2 估算北京市一日卖出的油条数量

油条这道题适合从供给需求两个层面上来思考问题:

  • 角度一 (需求层面)
    早饭吃油条的人数 × \times ×每人吃的油条的数量
    e.g. 北京市约有人口2000万人,假设 20 人中有 1 人选择早饭吃油条,则有 2000÷20 = 100 万人。每人每次吃 1 根油条。因此,北京市一天卖出约100*1=100 万根油条

  • 角度二 (供给层面)
    北京油条店的数目 × \times × 每家店卖出的油条数目
    e.g. [大概思路是分地区,各区域的店面数不一样] 北京市面积约16410平方千米,五环内面积约 735 万平方千米,若每 1 平方千米有 2 家油条店,则有 735*2=1470 家;五环外有约 15700 平方千米,若每两平方千米有 1 家油条店,则有15700÷2= 7 850 家。由此,北京共有油条店约 9320 家。假设每家油条店每天卖出 1 00 根油条。那么,北京市一天卖出 9320*100=93.2 万根油条

结果分析:根据两个角度的估算,北京市一天可以卖出的油条数量约在100 万左右。仍有一些因素可能导致误差,如五环内外油条店的分布密度尚待考证,可通过抽样调查使其更为精准。


第二大类 指标变动分析

🀄️思维框架by bellz

在这里插入图片描述

分析框架主要分4部分:

  • 明确需求

比如“航班公司觉得自己的某个航线经营状况不好,怎么利用我们的数据帮助他们找原因”的问题,我们就需要先明确“经营状况不好”的定义,是横比(其他公司、其他航线)还是纵比(历史经营状况)?

用户类型(新增、留存、回流、流失、付费、复购)
渠道
用户画像(性别、年龄、家庭状况、职业etc)
地区

  • 指标拆解
    a. 分析框架:指标的公式拆解方法,将题中的指标拆分为一些指标的加减乘除。(二八原则:指标有很多种拆解方法,需要选择最“主要”的指标)
    b. 逻辑:上述拆解方法的局限性,如:
    指出假设缺陷:在某些情况下,某种假设会使得数值有偏差
    指出分布缺陷:在某些情况下,数据分布不均匀会导致数值有偏差
    估算保守/激进:在这种框架下,是得到真实数据的上界还是下界

  1. 用户流失/留存下降问题

2.1 如果次日用户留存率下降了 5%该怎么分析?

  • 【是哪部分用户的原因】首先采用“两层模型”分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,然后分别计算每个维度下不同用户的次日留存率。通过这种方法定位到导致留存率下降的用户群体是谁。
  • 【下降的可能原因】对于目标群体次日留存下降问题,具体情况具体分析。具体分析可以采用“内部-外部”因素考虑。
    a. 内部因素分为获客(渠道质量低、活动获取非目标用户)、满足需求(新功能改动引发某类用户不满、收费不合理)、提活手段(签到等提活手段没达成目标、产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等);
    b. 外部因素采用PEST分析(宏观经济环境分析),政治(政策影响)、经济(短期内主要是竞争环境,如对竞争对手的活动)、社会(舆论压力、用户生活方式变化、消费心理变化、价值观变化等偏好变化)、技术(创新解决方案的出现、分销渠道变化等。
  • 【怎么分析】留存用户和留存率通常反映了不同时期获得的用户流失的情况,分析这个结果往往是为了找到用户流失的具体原因
    (1)次日留存:新用户结合产品的新手引导设计和新用户转化路径来分析用户的流失原因,通过不断的修改和调整来降低用户流失,提升次日留存率,通常这个数字如果达到了40%就表示产品非常优秀了。
    (2)周留存:在这个时间段里,用户通常会经历一个完整的使用和体验周期,如果在这个阶段用户能够留下来,就有可能成为忠诚度较高的用户。
    (3)月留存:通常移动APP的迭代周期为2-4周一个版本,所以月留存是能够反映出一个版本的用户留存情况,一个版本的更新,总是会或多或少的影响用户的体验,所以通过比较月留存率能够判断出每个版本更新是否对用户有影响

2.2 用户流失的分析,新用户流失和老用户流失有什么不同?

  • 两层模型:细分用户、产品、渠道,看到底是哪里用户流失了。注意由于是用户流失问题,所以这里细分用户时可以细分用户处在生命周期的哪个阶段。
  • 指标拆解:用户流失数量 = 该群体用户数量*流失率。看是因为到了这个阶段的用户数量多了(比如说大部分用户到了衰退期),还是这个用户群体的流失率比较高
  • 流失分析:同上【怎么分析】部门
  • 新用户流失和老用户流失有什么不同:
    a. 新用户流失:原因可能有非目标用户(刚性流失)、产品不满足需求(自然流失)、产品难以上手(受挫流失)和竞争产品影响(市场流失)。
    新用户要考虑如何在较少的数据支撑下做流失用户识别,提前防止用户流失,并如何对有效的新用户进行挽回。
    b. 老用户流失:原因可能有到达用户生命周期衰退期(自然流失)、过度拉升ARPU导致低端用户驱逐(刚性流失)、社交蒸发难以满足前期用户需求(受挫流失)和竞争产品影响(市场流失)。
    老用户有较多的数据,更容易进行流失用户识别,做好防止用户流失更重要。当用户流失后,要考虑用户生命周期剩余价值,是否需要进行挽回。

2.3 用户刚进来APP的时候会选择属性,怎样在保证有完整用户信息的同时让用户流失减少?

采用技术接受模型(TAM)来分析,影响用户接受选择属性这件事的主要因素有:
①感知的有用性(perceived usefulness),反映一个人认为使用一个具体的系统对他工作业绩提高的程度;
②感知的易用性(perceived ease of use),反映一个人认为容易使用一个具体的系统的程度。

(1)感知有用性:
a. 文案告知用户选择属性能给用户带来的好处
(2)感知易用性:
a. 关联用户第三方账号(如微博),可以在启动阶段匹配用户更有可能选择的属性,推荐用户选择。
b. 交互性做好(游戏的交互性体现于游戏设计的各个环节,包括角色,环境,声音,界面,进程,可玩性;角色是否生动,是否符合游戏环境,是否符合玩家的审美,界面符合人的使用习惯,玩家能够灵活控制,进程具有好的连续性,让玩家有兴趣探索后面的故事)
(3)使用者态度:用户对填写信息的态度
a. 这里需要允许用户跳过,后续再提醒用户填写
b. 告知用户填写的信息会受到很好的保护
(4)行为意图:用户使用APP的目的性,难以控制
(5)外部变量:如操作时间、操作环境等,这里难以控制


  1. 收益最大化问题

3.1 卖玉米如何提高收益?价格提高多少才能获取最大收益?

收益 = 单价*销售量,那么我们的策略是提高单位溢价或者提高销售规模。

  • 提高单位溢价的方法
    (1)品牌打造获得长期溢价,但缺陷是需要大量前期营销投入;
    (2)加工商品占据价值链更多环节,如熟玉米、玉米汁、玉米蛋白粉;重定位商品,如礼品化等;
    (3)价格歧视,根据价格敏感度对不同用户采用不同定价。
  • 销售量=流量x转化率,上述提高单位溢价的方法可能对流量产生影响,也可能对转化率产生影响。
  • 收益 = 单价x流量x转化率,短期内能规模化采用的应该是进行价格歧视,如不同时间、不同商圈的玉米价格不同,采取高定价,然后对价格敏感的用户提供优惠券等。

3.2 投放多少广告可以获得最大收益

收益 = 流量x点击率x有效转化率x消费金额,放广告的数量增加会提高流量,但会降低匹配程度,因此降低点击率。最大收益是找到这个乘积的最大值,是一个有约束条件的最优化问题。同时参考价格歧视方案,可以对不同的用户投放不同数量的广告。

3.3 从数据分析维度,如何判断一款游戏能盈利?
判断一款游戏的市场潜力其实是有逻辑的,包括:

  • 第一个必须是产品的易用性:这个易用性包括题材,美术风格,玩法模型,用户的上手模型,人机交互模型这五个能快速判断出一款游戏的用户渗透性到底好不好
  • 第二个是游戏的前期数值逻辑:这个前期的数值逻辑包括用户的体验流畅程度受限明不明显,用户的变现设定高不高特别是用户的可持续沉浸和用户变现规模化之间,能否实现平衡
  • 第三个是游戏的前期系统结构:这个前期的系统结构包括玩法模型的吸引力+系统结构衔接能不能实现可持续沉浸以及消费模型是不是有生硬的嵌套感
  • 第四个是游戏的交互模型:这个交互模型是不是过早地释放了让用户必须二选一的困境:要么消费,要么流失。当然更重要的是,这个交互模型能否让用户在游戏系统环境中找到定位
  • 看一款新上架的产品A,能不能被用户接受B,被用户接受后有没有可持续性C,被用户接受的前提下有没有规模效应其实,是可以在初期就判断出来的(不需要数据反馈,只需要针对产品设计本身就可以)资源堆积可以带来前期效应,但可持续性只有游戏设计可以实现

  1. 收益/销售额/成交总额 变化

4.1 一个网站销售额变低,你从哪几个方面去考量?

首先要定位到现象真正发生的位置,到底是谁的销售额变低了?这里划分的维度有:
a. 用户(画像、来源地区、新老、渠道等)
b. 产品或栏目
c. 访问时段
定位到发生未知后,进行问题拆解,关注目标群体中哪个指标下降导致网站销售额下降:
a. 销售额=入站流量x下单率x客单价
b. 入站流量 = Σ各来源流量x转化率
c. 下单率 = 页面访问量x转化率
d. 客单价 = 商品数量x商品价格
确定问题源头后,对问题原因进行分析,如采用内外部框架:
a. 内部:网站改版、产品更新、广告投放
b. 外部:用户偏好变化、媒体新闻、经济坏境、竞品行为等.

4.2 GMV升了20%怎么分析?
百度百科上定义Gross Merchandise Volume,是成交总额(一定时间段内)的意思。多用于电商行业,一般包含拍下未支付订单金额。

⚠️应该先估算一下数字有没有问题,GMV流水包括取消的订单金额和退货/拒收的订单金额,还有一种原因是商家刷单然后退货,虽然GMV上去了,但是实际成交量并没有那么多。
同样的套路:
(1)两层模型:进行用户群体、产品、渠道细分,发现到底是谁的GMV提升了
(2)指标拆解:将GMV拆解成乘法模型,如GMV=广告投放数量广告点击率产品浏览量放入购物车率交易成功率*客单价,检查哪一步有显著变化导致了GMV上升
(3)内外部分析:
a. 内部:网站、产品、广告投放、活动等
b. 外部:套PEST等框架

4.3 有一款游戏收入下降了,怎么分析

两层模型:细分用户、渠道、产品,看到底是哪里的收入下降了
指标拆解:收入 = 玩家数量 * 活跃占比 * 付费转化率 * 付费次数 * 客单价
进一步细分,如玩家数量 = 老玩家数量 * 活跃度 + 新玩家数量 * 留存率等。然后对各个指标与以往的数据进行对比,发现哪些环节导致收入下降
原因分析:
a. 内部:产品变化、促活活动、拉新活动、定价策略、运营策略、服务器故障等
b. 外部:用户偏好变化、市场环境变化、舆论环境变化、竞争对手行为、外部渠道变化等
如何提高:基于乘法模型,可以采用上限分析,从前往后依次将指标提升到投入足够精力(假设优先分配人力、经费与渠道)后的上限,然后分析“收入”指标的数值提升。找到数值提升最快的那个阶段,就是我们提高收入的关键任务


第三大类 异常检验

  1. 作弊检测

5.1 APP激活量的来源渠道很多,怎样对来源渠道变化大的进行预警?

  • 【置信区间】如果渠道使用时间较长,认为渠道的app激活量满足一个分布,比较可能是正态分布。求平均值和标准差,对于今日数值与均值差大于3/2/1个标准差的渠道进行预警。
  • 【均值】对于短期的新渠道,直接与均值进行对比。

5.2 如何识别作弊用户(爬虫程序, 或者渠道伪造的假用户)

分类问题可以用机器学习的方法去解决,下面是我目前想到的特征:
(1)渠道特征:渠道、渠道次日留存率、渠道流量以及各种比率特征
(2)环境特征:设备(一般伪造假用户的工作坊以低端机为主)、系统(刷量工作坊一般系统更新较慢)、wifi使用情况、使用时间、来源地区、ip是否进过黑名单
(3)用户行为特征:访问时长、访问页面、使用间隔、次日留存、活跃时间、页面跳转行为(假用户的行为要么过于一致,要么过于随机)、页面使用行为(正常用户对图片的点击也是有分布的,假用户的行为容易过于随机)
(4)异常特征:设备号异常(频繁重置idfa)、ip异常(异地访问)、行为异常(突然大量点击广告、点赞)、数据包不完整等

5.3 怎么做恶意刷单检测?
分类问题用机器学习方法建模解决,我想到的特征有:
(1)商家特征:商家历史销量、信用、产品类别、发货快递公司等
(2)用户行为特征:用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号
(3)环境特征(主要是避免机器刷单):地区、ip、手机型号等
(4)异常检测:ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等
(5)评论文本检测:刷单的评论文本可能套路较为一致,计算与已标注评论文本的相似度作为特征
(6)图片相似度检测:同理,刷单可能重复利用图片进行评论


第四大类 游戏测试

6.现在有一个游戏测试的环节,游戏测试结束后需要根据数据提交一份PPT,这个PPT你会如何安排?包括什么内容?
这里可以套AARRR模型:
获取用户(Acquisition)
提高活跃度(Activation)
提高留存率(Retention)
获取收入(Revenue)
自传播(Refer)

获取:我们的用户是谁?用户规模多大?
a. 用户分层
激活:游戏是否吸引玩家?哪个渠道获取的用户有质量(如次日留存高、首日停留时间长等)?
留存:用户能否持续留存?哪些用户可以留存?
转化:用户的游戏行为如何?能否进行转化?能否持续转化?
自传播:用户是否会向他人推荐该游戏?哪种方式能有效鼓励用户推荐该游戏?传播k因子是否大于1?

7[类似]. 比如你对楼市不熟悉,现在要你去做一个像58同城之类的,卖房的中介,电商,你会如何进行分析?
(1)商业模式分析:中介做的是双边市场生意,通过解决市场信息不对称下的信息流动问题,降低买方和卖方的交易成本,从而创造盈利空间
(2)需求分析:
a. 买方需求分析:低价买好房,对时间的需求有快的和慢的
b. 卖方需求分析:房子卖高价,对时间的需求有快的和慢的
(3)进入条件分析(套SWOT分析法(态势分析法)也行):
a. 自身条件
b. 竞争对手
c. 市场增长规模
(4)进入策略分析:
a. 自身目标
b. 目标拆解
c. 分析目标达成的可能性,预估将来一段时间,好/正常/坏条件下的目标达成情况
d. 得出结论:是否进入该市场

第五大类 运营评估

8. 某业务部门在上周结束了为期一周的大促,作为业务对口分析师,需要你对活动进行一次评估,你会从哪几方面进行分析?
(1) 确定大促的目的:拉新?促活?清库存?
(2) 根据目的确定核心指标。
(3) 效果评估:
a. 自身比较:活动前与活动中比较
b. 与预定目标比
c. 与同期其它活动比
d. 与往期同类活动比
(4)持续监控:
a. 检查活动后情况,避免透支消费情况发生
b. 如果是拉新等活动,根据后续数据检验这批新客的质量

第六大类 综合运用

9. 用户分析是电商数据分析中重要的模块,在对用户特征深度理解和用户需求充分挖掘基础上,进行全生命周期的运营管理(拉新—>活跃—>留存—>价值提升—>忠诚)

① 用户第一单购买的行为往往反映了用户对平台的信任度和消费能力。现在数据库中有一张用户交易表order,其中有userid(用户ID)、amount(消费金额)、paytime(支付时间),请写出对应的SQL语句,查出每个用户第一单的消费金额。
② 当你发现本月的支付用户数环比上月大幅下跌(超30%),你会如何去探查背后的原因?请描述你的思路和其中涉及的关键指标
③ 为了更好的理解用户,我们通常会基于用户的特征对用户进行分类,便于更加精细化的理解用户,设计产品和运营玩法,请你设计对应的聚类方法,包括重点的用户特征的选择及聚类算法并说明其基本原理和步骤

① select userid,amount,min(paytime)
from order
group by userid;

② 面对本月支付用户数环比上月下跌30%的情况,首先要判断这是不是我们的问题。是不是上个月是双十一,所以销售额异常的高?或者是不是本月突然爆发了世界范围的经济危机?如果是这种情况,那么电商平台会不可避免地受到影响。

如果支付用户数下跌是个问题,那么是浏览用户少了还是支付率下降了?如果是浏览用户少了,那么核心是找出哪些人群的浏览用户数下跌了。是新用户还是老用户?如果是新用户的问题,是不是渠道引流做的不够好?那么是哪个渠道出了问题呢?可以通过查看渠道的新增用户数查找问题;如果在渠道没发现问题,那是不是产品策略最近调整了? 可以查找产品迭代前后的浏览用户数进行对比分析。如果是支付率下降了,那么是哪个用户群体的支付率下降了?是有强烈下单需求但未下单的人群,还是购买频次≥10但超过一个月未访的忠实客户流失了?这个可以根据用户分层中的不同用户层逐一分析。通过不同维度、不同人群的拆分,把大的问题慢慢细化,落实到具体的指标上,找出问题所在。

定位用户:从新老、渠道、画像等维度定位出现问题的用户群体

指标拆解:支付用户数 = 浏览用户数×支付率,定位是浏览人数下降了还是支付率下降了

原因分析:
内部:获客(渠道质量低,活动获取非目标用户)、需求满足(功能改动引发某类用户不满)、提活手段(活动没有达到预期目标,产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等);
外部:政治(政策影响)、经济(短期内主要是竞争环境,如竞争对手的活动)、社会(舆论风向,用户生活方式变化,消费心理变化等偏好变化)、技术(创新解决方案的出现,分销渠道的变化等)。

③指标选择略

对于连续数据且数据量较大的数据,用Kmeans聚类法。基本原理:先随机选取K个对象作为初始的聚类中心,然后计算每个对象与各种子聚类中心之间的距离,把每个对象分配给他最近的聚类中心。一旦全部对象被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直至满足某个终止条件。

用Python实现Kmeans的步骤:
1.导入pandas,numpy,matplotlib等包,用read_csv/table等导入数据
2.数据预处理,用astype方法做类型转换;用duplicated方法加any方法识别冗余数据、并用drop duplicated清除冗余数据;用Python的isnull方法识别缺失值,并选用删除法/插补法/替补法等处理。
3.用dist()函数定义距离并计算,一般使用欧式距离
4.先用scatter()作数据散点图,根据散点图设定K值,用np.random,randint随机获得中心点
5.迭代,用while循环,一般需要设置最大迭代次数
6.用matplotlib.subplots()作图

10.网易严选是网易旗下原创生活类自营电商品牌,深度贯彻“好的生活,没那么贵”的品牌理念。商品覆盖居家、餐厨、配件、服装、洗护、母婴、原生态饮食等几大类目,兼具品质和性价比,得到用户的广泛好评。若你是网易严选负责商品的数据分析师,当面对以下业务问题时,你会如何解决?

① 用户增长团队期望选择一批合适的商品用于吸引新客,期望你帮助从数据的角度筛选出一批合适的商品,你会如何帮助他们进行筛选?请描述你的思路。
② 商品研发负责人期望能有一套指标帮助衡量开发的商品表现,请你帮助设计对应的评估方案,包括设计思路、涉及的数据指标等。


(1)首先定位发展方向,是发展现有产品还是进行新产品的拓宽。可以通过用户调研,调查目前用户选择网易严选平台的原因,是因为专注于一个方向,还是因为性价比高,如果核心用户选择专注于一个方向,则更应该选择发展现有产品,否则可以考虑拓宽产品类型。
(2)确定方向后,确定具体产品,需要考虑用户的消费能力,选择品牌等。通过调研用户选择其他平台而不选择网易严选的原因,调查产品类别是否存在不足。确定产品类别后,还需考虑用户的消费能力,可根据消费者过往消费记录或调研将用户大致分为高水平消费者、中等水平消费者、低水平消费者三类,从而选择相应价位的产品
(3) 确定大致价格后,还需要调研产品的具体功能还是什么点对于消费者性价比高。例如,如果100元MUJI的香薰机还是80元其他品牌、功能相似的香薰机。


(1)初期,可进行定性调查,考虑小范围用户体验的调研,KPI可以考虑用户一个月内使用次数等。chan从用户日常的使用过程中,衡量商品开发效果。例如,对于新买的家具,用户是否需要晾晒一段时间或者栽种盆栽来去除气味;针对同一款产品的不同颜色,用户是否具有偏好等。
(2)推广期,可进行定量调查,并和同类产品进行比较。
KPI: 该产品和同类产品一个月的浏览次数、点击次数、购买次数、各类评价的数量,以及衍生指标。购买率 = 购买次数/总浏览次数,点击率=点击次数/浏览次数,好评率=好评数量/评价数量,差评率=差评数量/总评价数量等。
该产品浏览次数较低,可能是因为推广度不够;浏览次数高,点击次数、点击率较低则说明该产品开发没有解决用户最急迫的需求,不能吸引用户;好评率低,则说明该产品存在问题等。

11. 经一番研究后,我们开发出了一个新的商品详情页中’相关商品’模块的算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来进行评估。假如你是此次实验的数据分析师,请问你会怎么评估控制组和实验组的表现?请按重要性列出最重要的三个指标并给出你的分析过程。

使用A/B测试模型,分析两个版本在一段时间期限内,详情页面到支付页面的转化率变化,并计算转化率变化后引起的的GMV变化。

可选择的决策:①确定发布新版本;②调整分流比例继续测试;③优化迭代方案重新开发。

要统计的指标:期限内新、旧版本商品详情页到支付页转化率 ,支付金额。

要衡量的指标:转化率变化 t 在是可接受的置信区间内是否显著,同时参考收益提升率。

指标计算方法:转化率=从某详情页到支付页用户数/浏览该商品详情页用户数(取日平均和标准差)

支付金额=从某详情页到支付页到支付成功路径用户的本次支付金额(取日平均)

采用决策①的情况:本次页面改进在显著性水平内,证明了‘转化率提升的假设’。并且收益提升率达到预期水平。

采用决策②的情况:本次页面改进在显著性水平内,无法证明‘转化率提升的假设’。分析原因可能是新版本样本空间不足。

采用决策③的情况:本次页面改进在显著性水平内,证明了‘转化率提升的假设’。但是收益提升率没有达到预期水平。
————————————————

ABtest 知识点

  • 什么是AB test?

A / B测试(也称为分割测试或桶测试)是一种将网页或应用程序的两个版本相互比较以确定哪个版本的性能更好的方法。AB测试本质上是一个实验,其中页面的两个或多个变体随机显示给用户,统计分析确定哪个变体对于给定的转换目标效果更好。

e.g. 指标如CTR Click-Through-Rate,即点击通过率,即该广告的实际点击次数(严格的来说,可以是到达目标页面的数量)除以广告的展现量(Show content)

  • 进行AB test的目的是什么?

A / B test可以让个人,团队和公司通过用户行为结果数据不断对其用户体验进行仔细更改。这允许他们构建假设,并更好地了解为什么修改的某些元素会影响用户行为。这些假设可能被证明是错误的,也就是说他们对特定目标的最佳体验的个人或团队想法利用A / B test证明对用户来说是行不通的,当然也可能证明是正确的。

所以说 A/B test不仅仅是解决一次分歧的对比,A/B test可以持续使用,以不断改善用户的体验,改善某一目标,如随着时间推移的转换率。

【案例】 B2B技术公司可能希望从活动登陆页面提高其销售线索质量和数量。为了实现这一目标,团队将尝试对标题,可视图像,表单字段,号召性用语和页面的整体布局进行A / B测试更改。

一次测试一个变化有助于他们确定哪些变化对访问者的行为产生何种影响,哪些变化没有影响访问者的行为。随着时间的推移,他们可以结合实验中多次正向变化的效果来展示变体相对于控件的可测量的改进。

这样来说产品开发人员和设计人员可以使用A / B测试来演示新功能对用户体验变化的影响。只要目标明确定义并且有明确的假设,用户参与,产品体验等都可以通过A / B测试进行优化。

  • AB test流程

1)确定目标:目标是用于确定变体是否比原始版本更成功的指标。可以是点击按钮的点击率、链接到产品购买的打开率、电子邮件注册的注册率等等。

2)创建变体:对网站原有版本的元素进行所需的更改。可能是更改按钮的颜色,交换页面上元素的顺序,隐藏导航元素或完全自定义的内容。

3)生成假设:一旦确定了目标,就可以开始生成A / B测试想法和假设,以便统计分析它们是否会优于当前版本。

4)收集数据:针对指定区域的假设收集相对应的数据用于A/B test分析。

5)运行试验:此时,网站或应用的访问者将被随机分配控件或变体。测量,计算和比较他们与每种体验的相互作用,以确定每个用户体验的表现。

6)分析结果:实验完成后,就可以分析结果了。A / B test分析将显示两个版本之间是否存在统计性显著差异。

无论的实验结果如何,需要利用试验结果作为学习经验生成未来可以测试的新假设,并不断迭代优化应用元素或网站的用户体验。

1)先验性:通过低代价,小流量的实验,再推广到全流量的用户。
2)并行性:不同版本、不同方案在验证时,要保重其他条件都一致。
3)分流科学性和数据科学性:分流科学是指对AB两组分配的数据要一致,数据科学性是指不能直接用均值转化率、均值点击率来进行AB test决策,而是要通过置信区间、假设检验、收敛程度来得出结论。

  • AB test中要知道的统计学知识 🐒待整理🚩
    1)点估计
    2)区间估计
    3)中心极限定理(样本估计总体的核心,可以对比看一下大数定理)
    4)假设检验

其中假设检验部分为核心,其他辅助更好的理解该部分内容,比如区间估计可以理解为正向的推断统计,假设检验可以理解为反证的推断统计,关于假设检验本身,你可能还需要知道小概率事件、t分布、z分布、卡方分布、p值、alpha错误、belta错误等内容

小知识点-环比和同比

环比:上一个统计周期数据,好处是可以更直观的表明阶段性的变化,但是会受季节因素影响,反映了产品的短期趋势。
同比:历史同期数据(一般指月份或者季度),好处是可以排除一部分季节因素,反映了产品的一个长期竞争力的表现。

根据统计周期、频率不同会有具体变化。最熟悉的就是CPI(通胀数据),这个是月统计数据,年为主要周期,所以简单来说,同比就是本月与去年同月的比,环比就是本月与上月的比。

一般这两个数据要结合公司的市场推广情况、产品的竞争力进行综合分析,剖析数据变化的内在原因,帮助市场部门更好的制定营销策略。

例1:环比增加了30%,同比只增加了5%,说明公司近期的推销手段可能起作用了,但整体来说,产品的市场认可度并没有大的提升,可能之前的价格没有竞争力或者性价比不高,或产品定位不准,这一切都需要具体情况分析。

例2:环比减少了10%,但同比增加了300%,说明产品近一年的销售情况是不错的,市场认可度一直在提升,但近期可能出现了问题,或者其他新产品影响了他的销售,或者缺少市场推广活动等等。

5. 运营指标整理

  • ARPU (Average Revenue Per User)
    平均每用户收入 = (一定周期内,默认是一个月)总收入 / 用户数

一般不会这么计算,因为存在大量已流失用户和沉默用户,将这部分用户纳入统计是没有意义的。

总收入:毛利(收入-成本-第三方分成)
注意:用户充值但并未消费,不纳入收入

用户数:可以变形为月活跃用户数,月付费用户数,累积用户总数,用户分层总数(例如可以将用户分为不同渠道来源、是否会员用户、通过使用频次划分等等。可以查看不同渠道来源的用户质量。)

(2) ARPPU(Average Revenue Per Paying User):平均每付费用户收入
(3) LTV(Life Time Value):用户的终身价值/生命周期价值,平均每个用户可以带来多少价值
🤔️游戏内测期间,预估LTV(时间短不知道用户的生命周期)

实际上LTV是以用户生命周期为单位的ARPU值。LTV=(Life Time)ARPU。我们只需要计算用户的平均生命周期,再计算这个周期内的ARPU值,就能得出平均每个用户可以带来多少价值。

平均生命周期 = 用户总留存时间/总用户数 = ∑ i = 1 n 第 i 天 的 留 存 用 户 数 / 总 用 户 数 = ∑ i = 1 n 第 i 天 的 留 存 率 = 留 存 曲 线 下 的 面 积 \sum_{i=1}^n 第i天的留存用户数/总用户数 = \sum_{i=1}^n 第i天的留存率 = 留存曲线下的面积 i=1ni/=i=1ni=线

👍 这篇文章的最后,用excel计算用户生命周期

(4) LTV可以用来计算ROI(Return On Investment)投资回报率

P.S. 广告投放ROI
a) 成本利润率 = 利润(赚了多少) / 投入(成本),反映的是成本和利润的关系,衡量我的利润是否再生投入资本(资金回流),这个是站在资金回转时效的角度去看的。
b) 销售利润率= 利润(赚了多少)/ 销售(销售收入),反映销售额和利润的关系,衡量利润情况是否达到目标需求,这是站在一盘生意的情况上看的。
c) 投资回报率(ROI)=产出(销售收入)/ 投入(成本),反映投入和产出的关系,衡量我这个投资(花了多少钱)值不值得,能给到我多少价值的东西(非单单的利润),这个是站在投资的角度或长远生意上看的。

(5)CAC(Customer Acquisition Cost)用户获取成本
(6)PBP(Payback Period)回收期
花出去的用户获取成本可以在多长时间内回本。PBP越短越好,说明资金周转快,企业能更快增长。

市场普遍认为 LTV>CAC的时候公司是有可能性的,LTV<CAC的时候模式是无意义的,而LTV/CAC=3的时候是公司最能健康发展的(小于3说明转化效率低,大于3说明在市场拓展上还太保守)

(7)其他
平均同时在线人数(ACU: Average concurrent users):在一定时间段抓取一次数据,以一定周期为期限;周期内的ACU可取时间段的平均数据。
最高同时在线人数(PCU:Peak concurrent users):在一定时间内,抓取最高在线数据。
充值金额:在一定周期内充值总金额。
元宝消费金额:在一定周期内,玩家在游戏商城中的消费总金额(充值金额与元宝消费金额有着明显区别,上者受活动影响,下者受商城道具需求影响。)
每付费用户平均收益(ARPPU: Average Revenue Per Paying User):相似于下载游戏的消费比率,此类数据主要衡量付费用户收益(公式:月总收入/月付费用户数)
平均每活跃用户收益(ARPU: Average Revenue Per User):主要衡量游戏整体贡献收益(公式:月总收入/月活跃用户)
平均生命周期:有新增账户在首次进入游戏到最后一次参与游戏的时间天数。比如记录某一个月,这个月里,每个新增用户的生命周期之和/MAU=平均生命周期。
LTV生命周期价值(LTV: Life Time Value):约定一个计算的生命周期值(比如上个月的平均生命周期,或者约定为15日,即这个月有15日登陆记录的账户数),符合这个生命周期条件的账户数中,充值金额的和/条件账户数。
每日注册并登陆的用户数(DNU: Daily New Users)
新登用户中只有一次会话的用户(DOSU: Daily One Session Users):主要衡量新用户的质量,买量的可以参考一下。
每日登陆过游戏的用户数(DAU: Daily Active Users)
七天内登陆过游戏的用户数(WAU: Weekly Active Users):主要衡量周变化。
30天内登陆过游戏的用户数(MAU: Monthly Active Users):主要衡量产量的粘性以及用户的稳定性。
月流失率:(公式:30天前登陆过游戏,30天内未登陆游戏的用户数/MAU)
周流失率:(公式:7天前登陆过游戏,之后7天内未登陆游戏的用户数/WAU)
日流失率:(公式:统计日登陆过游戏,次日未登陆游戏的用户数/统计日DAU)
30日留存率:新用户在首次登陆后的第30天再次登陆游戏的比例
7日留存率:新用户在首次登陆后的第7天再次登陆游戏的比例
3日留存率:新用户在首次登陆后的第3天再次登陆游戏的比例
次日留存率:新用户在首次登陆后的次日再次登陆游戏的比例

用户状态数据监控
活跃用户数:对于活跃用户,每家定义各有不同.7天内有3天登陆过账号的便可成为活跃用户。
新增活跃用户数:首次上线游戏的用户数
流失活跃用户数:上期(7-14天)有过登陆,在本期(最近14天)未登陆的用户数。
回流活跃用户数:上期(7-14天)未登陆,在本期(最近7天)有登陆的用户数。
活跃用户流失率:(公式:(本月流失用户/上月活跃用户)100%)
活跃用户充值率:(公式:(本月活跃付费用户/本月活跃用户)100%)
活跃用户在线时长(单位/小时):(公式:当期(7天)所有活跃用户在线时长总和/当期(7天)活跃用户数)
付费用户在线时长(单位/小时):(公式:当期(7天)所有付费用户在线时长总和/当期(7天)付费用户数)
新增活跃用户充值率:(公式:(本月内有充值的新增登录用户/本月总新增登录用户)100%)
新增活跃用户高活跃率:(公式:(本月新增登陆用户中的高活跃用户数/本月新增登陆用户数)100%)
用户Guide分布:新手引导点用户比例(公式:当前Guide点用户数/上一个Guide点用户数)

付费用户状态
付费用户数:截止到统计日,所以曾经有过充值的用户总数。
新增付费用户数:当期付费用户数减去上期付费用户数。
活跃付费用户数(APC):当期(周/月)有过充值行为的用户数。
流失付费用户数:上期有登陆行为,当期没有登陆的付费用户数。
回流付费用户数:上期未登陆,在当期有登陆的付费用户数。
付费用户流失率:当期流失付费用户数/上期活跃付费数。
付费用户月平均充值次数:当期所有充值次数/当期付费用户数。
付费用户月平均充值金额(RMB):当期充值总额/当期付费用户数。
忠实付费用户数:当期统计结束,后续2-3期之内,每期都有充值行为的用户数。
上文的“当期”即现在周期的意思,例如3天、7天、30天都是一周期。

运营成本
投入/运营成本(RMB):本月为推广游戏而投入的营销及市场费用金额
产出/元宝消费金额(RMB):玩家周期内(日/周/月)在游戏中的消费总金额
投入产出比(ROI):简而言之,就是说付出与回报是否成正比。(公式:本月的产出/本月的投入)
单个活跃用户推广成本(RMB):(公式:本月投入/本月新增活跃用户数)
单个付费用户推广成本(RMB):(公式:本月投入/本月新增付费用户数)

第七大类 其他笔试题:4399

  1. 以下哪个选项不是我们普遍认为的游戏职业铁三角关系:()
    战士
    法师
    魔导师
    牧师

游戏职业铁三角:治疗(e.g.牧师),坦克(e.g. 法师 魔法伤害),输出(e.g. 战士 物理伤害)

  1. 电子游戏被称为第几艺术(9)
  2. 以下哪个游戏不属于同一种类型()
    崩坏3
    血族
    Fate/Grand Order
    决战!平安京

解析:来恰土豆* 《崩坏3》是动作冒险也是RPG,《血族》是卡牌RPG,《fate/grand》是RPG(role-playing game角色扮演),平安京是MOBA游戏

  1. 目前手机游戏公司中使用3D引擎开发比较多使用下列哪个引擎?()
    Unity3D
    Construct 2
    WiEngine
    cocos2D-x

  2. 以下哪款游戏不属于MOBA(Multiplayer Online Battle Arena 多人在线战术竞技游戏)游戏
    《王者荣耀》
    《魔兽世界》(MMORPG Multiplayer Online Role-Playing Game 大型多人在线角色扮演游戏)
    《决战平安京》
    《非人学园》

  3. 常考列举自己曾经玩过的5款印象最深刻(最喜欢)的游戏、游戏类型、游戏时长、等级和游戏水平、在游戏中的职业或担任的角色。选择其中一款详细说明该游戏最吸引你的地方在哪里。

  4. 其他笔经
    作者:牛客122855866号


引用文章/网站

遵纪守法好青年哈哈哈哈哈哈(侵删❕)

  1. 搜狐 数据分析告诉你游戏公司是如何运作的
  2. 招聘信息
  3. 谈谈游戏数据分析的那点事
  4. 从数据分析维度,如何判断一款游戏能盈利?
  5. 汤涌 数据指标专栏
  6. 广告投放ROI
  7. 谈谈游戏数据分析的那点事
  8. 弯弯bear的游戏运营数据分析
  9. Jahree 数据分析相关积累 业务方面面试题思考及整理
  10. 数据分析面试中的业务问题
  11. 游戏中的交互性
    我踏马连论文都看了 我之后要是不上岸都亏的慌😂
  12. 郑金条 知乎回答 从数据分析维度,如何判断一款游戏能盈利?
  13. 百度百科
  14. 指标异动类问题分析框架 - 数据分析师面试题
  15. 如何准备数据分析面试中的业务问题
  16. 数据分析面试中的业务分析问题,该如何回答?
  17. 游戏数据分析及其运营方法
  18. 各大游戏贴吧 参考下玩家的留言

没看完的,之后看的
19. 🐂Jewel 知乎专栏 游戏运营数据分析
20. 【面经】数据分析面试题整理总结(持续更新中…)
21. 🐂🐂🐂稻蛙CSDN专栏
22. 腾讯大数据 产品运营专栏

挖坑-SQL面试整理

挖坑-统计面试整理

挖坑-Excel面试整理

暑假图书🧾

勤能补拙💪

每天起床第一句,先给自己打个气!锦鲤

在这里插入图片描述

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值