数分面试题 - 常见面试题2

1、GMV下滑严重怎么分析?

1,相比于何时下滑,是环比上月,同比去年,环比去年,还是环比上周的数据。通过时间的比较初步判断为下滑,是否是出于季节、节日、突发性时间,和天气等影响
2,公式拆解 = GMV = 购买人数×客单价×购买次数
购买人数:浏览×进店转化率 ×购物车转化率 - 付款转化率。判段是哪个环节出了问题。

流量下降 – 注意拉新
进店转化率下降:注意营销活动

2、某网站留存率下降怎么分析?

什么留存率?
分母变大?分子变小

3、如果存在有很多维度的特征时,如何筛选?

1,filter方法(过滤式) :对每一维度特征打分,即给每一维的特征赋予权重。权重代表该特征的重要性。
2,wrapper(包裹式):将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较
3,enbedding方法(嵌入式):在模型既定的情况下学习出对提高模型准确性最好的特征

4、xgboost算法优点?

1,利用了损失函数的二阶导数,使得最终值逼近真实值
2,out-of-core cache-aware优化内存等方法来加速计算
3,利用L2正则来防止过拟合
4,shrinkage(收缩)方法,相当于学习系数eta。对每颗子树都要乘上该系数,防止过拟合
5,缺失值处理:通过枚举所有缺失值在当前节点是进入左子树,还是进入右子树更优来决定一个处理缺失值默认的方向。支持并行处理,提高了处理速度

6、某APP用户活跃度下降如何分析?

答:
各个维度用户活跃度的变动系数=(该维度下异常前用户活跃度-该维度下异常后用户活跃度)/该维度下异常前用户活跃度,选出变动系数较大的前几个维度,对其进行分析。

两步分析法:首先定位问题原因,通过计算各个维度用户活跃度的变动系数

从内部和外部进行分析,内部从产品(版本更新)、技术(卡顿,闪退)、运营(运营活动)分别沟通
外部(政策与竞品)

7、获取和处理数据的途径与流程?

活动数据:活动漏斗会在活动页中埋点来获取到,埋点需要规范埋点的url和参数需要研发配合将埋点加到页面中
活动结束后,数据仓库同事会将埋点数据接入数据库中,利用sql或者python对数据进行处理,建立活动漏斗

8、预估2030年高考生的数量

高考生一般为18岁,2030年高考生为2012年出生,2012年我国出生人口为1600万,假设上学率为80%,都进行了九年义务教育,中考升学率为60%,所以最好高考人数为1600×0.8×0.6

9、如何理解数据分析师这个职业

数据分析:通过数据的角度,发现业务的痛点和痒点,通过分析原因得出解决策略,并推动策略落地,达到提升业务质量的过程。
职业看法:我认为这个职业是非常有前景的,未来许多企业都将完成数字化转型,对数据分析师的需要和要求也会逐渐提高,未来我也希望在这一领域深耕,不断学习提升自己的分析能力和业务水准,希望能够成为一名优秀的数据分析师。

10、介绍PCA

线性变换,这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第
一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数
据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。

PCA算法步骤:
1,将原始数据按列组成n行m列矩阵x
2,将 X 的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值。
3,求出协方差矩阵。
4,求出协方差矩阵的特征值及对应的特征向量。
5,将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 k 行组成矩阵 P Y=PX 即为降维到 k 维后的数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值