数分面试题 - 常见面试题1

1、特征工程,选择哪些特征作为预测变量

特征工程:特征构建、特征提取、特征选择
预测变量:用户行为特征、用户消费特征、用户画像特征

2、什么时候选择RFM模型构建特征变量

1,数据量小,没有太多用户行为数据。只要有一定的成交数据,就能进行RFM分析。
2,模型的分层可解释性强。其他算法模型往往需要通过聚类来进行用户分层,对业务来说不好解释,但RFM模型分成的用户类别好理解

3、显著性水平、置信区间、假设检验

显著性水平:第一类错误,拒真错误,即原假设为真但被拒绝的概率
置信水平:在区间估计中,由样本统计量构造的总体参数的估计区间称为置信区间
假设检验:先对总体参数做一个假设,再利用样本信息去检验这个假设是否成立

4、机器学习的随机森林 Random Forest 和 xgboost 有什么区别

随机森林:采用bootstrap的随机有放回的抽样,抽样出 N 份数据集,训练出 N 个决策树。然后根据 N 个决策树输出的结果决定最终结果
xgboost:通过 boosting 的思想,由一堆 cart 树,将每棵树的预测值加在一起就得到了最后的预测值。

RF 属于集成学习 Bagging,而 XGB 属于集成学习 Boosting。RF是通过减少模型方差提高性能;XGB 是通过减少模型偏差提高性能。对于最终的输出结果而言,RF 采用多数投票等;而
XGB 则是将所有结果累加起来,或者加权累加起来

5、假设检验的原理和步骤

原理:小概率事件原则,小概率事件在一次实验中基本不可能发生,一旦发生就有理由拒绝原假设。运用的是反证法,证明在原假设成立的情况下,出现样本结果是小概率事件,就有理由拒绝原假设。

步骤:确定原假设和备择假设,确定适当的检验统计量,计算其值

6、哪些常见的评价指标?

1,混淆矩阵:混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息
2,准确率(正确预测的正反例数 /总数)
3,精确率(预测出是正的里面有多少真正是正的)
4,召回率(正确预测的正例数 /实际正例总数)
5,F1值:是精确率和召回率的调和值,更接近于两个数较小的那个,所以精确率和召回率接近时,F 值最大。

7、在AB实验的应用P值的意义?第一类和第二类错误的定义是什么

P 值就是在原假设成立的前提下,出现样本结果以及更极端现象的概率
第一类错误α叫弃真错误或显著性水平,即原假设为真时却被我们拒绝的概率;
第二类错误β叫采伪错误,即原假设为伪我们没有拒绝的概率

8、如何估计样本量

功效分析,根据预期的功效、效应值、显著性水平来计算样本大小
功效分析中,关注四个量:功效、样本大小、效应值、显著性水平。当任意给定三个量后,就可以推算出第四个量。

样本大小:实验设计中每种条件/组中观测的数目
显著性水平:第一类错误,阿尔法错误
功效:1减去第二类错误。
效应值:在备择或研究假设下效应的值

9、什么是辛普森悖论?如何避免

辛普森悖论是指在某个条件下的两组数据,分开讨论时都满足某种性质,但一旦合并起来考虑就会得出相反的结论

我们要学会思考因果关系:数据如何生成,基于此,哪些因素会影响我们未展示的结果

10、商城里每天的人流量属于什么分布?泊松分布与二项分布的关系?

属于泊松分布,泊松分布属于二项分布的近似,当二项分布的p很小,重复实验次数n很大时,两者分布接近。

二项分布指已知某件事发生的概率为p,做n次实验,事件发生的次数就服从二项分布。
泊松分布是某段连续时间内,某件事情发生的次数

10、如何判断实验组和对照组的某个指标是否有显著差异?

做假设检验,设置显著性水平,判断是否有显著性差异

11、日常数据分析流程

观察数据-发现问题-数据清洗 - 数据统计 - 数据可视化 - 数据分析报告撰写

12、 推荐模块的指标

用户层面:每日推荐人数、点击推荐用户数、
模块功能:各模块的点击人数、点击率

13、短视频行业,竞争力情况?

风口、各互联网大厂纷纷加入短视频行业,字节、快手等位于第一梯队,用户数与用户粘性都很高,各个领域繁荣,美妆、搞笑、美食、影视、游戏等逐渐成熟,短视频也成为各大广告主营销的主要渠道
淘宝短视频竞争力:自带大型流量,想要打造与快手抖音不同的产品,可以把产品营销、产品功能使用介绍等内容作为视频内容主攻口,进行品牌宣传,实现引流变现

14、某电商订单量下降,如何分析?

版本影响:新版本上线的时候,是app出bug的高概率期,所以拉出各版本订单数量的趋势图,如果订单量下降的时间与发版时间一致,则是版本的问题。
活动影响:是否是运营活动的影响
服务端影响:服务端会时不时定期修补服务bug或者上线新策略或优化原策略,导致数据流出现问题
漏斗分析:查询漏洞数据:日活-登录-浏览商品 - 加购购物车 - 支付 - 支付成功。排查每两个环节之间的转化率是否有较大差异,以确定是否是某个环节的bug导致最终的订单量下降

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值