面试宝典1


磊叔:

2,逻辑和统计学篇

热身问题,难度,区分度,

什么是描述性统计:

描述数据的基本情况,事实,平均数,中位数,分位数,方差,偏度,峰度

加权平均数的应用场景:

多指标分配权重方便计算,比如各省成绩,催收员排名指标,回款金额,金额回收率,笔数回收率,外访次数,有效外访率

加权平均数的前提是:

标准化,把不同指标的考察基准拉倒同一水平线对比。

例如:播放完成率,播放时长,播放次数,

怎么评估样本中的异常值?

评估日活,

找异常值:

分位数,q3-q1,上四分位值Q3与下四分位值Q1之间的差称为四分距(IQR),即IQR=Q3-Q1。

什么是同比,环比?

环比是和相连续的上一个统计周期进行对比,环比是连续的。

同比是和同期的统计周期进行对比,同比是不连续的。

同比会加限定词,和2018年的同比

正式题目:

相关和因果有什么区别和联系?

相关是两个或多个互为相关的,没有先后顺序,

因果是前一个事件对后一个有影响

excel里面相关性分析,输出的是那种相关系数?

皮尔逊相关系数,前提是各个变量相互独立,

强相关p>0.5,这是理论

飞机失事,幸存者偏差?

流失客户为什么走,活跃用户大多是粉丝,

什么是聚类,业务应用场景,常见算法?

不知道多少类,年龄分类,特征工程

用户画像

常见算法,k-均值聚类,

什么是分类,业务应用场景,常见算法?

逻辑回归是分类算法,SVM,决策树(客群划分),

什么是回归,业务应用场景,常见算法?

评估回归算法的指标?

r方大于0.4

时间序列预测的核心逻辑和原理是什么?

excel中基于时间序列的预测算法是什么?

指数平滑,时间轴,

3,数据分析思路篇

4,数据分析技能篇

你理解的指标是什么?组成部分?业务应用场景?

指标是有业务意义的,反应业务变化,是有类型的,行为,

什么是指标体系?如何建立?业务应用的场景?

有严格的体系,

指标,维度和度量的区别和联系?

过去三年广州地区a产品的月活增长率

什么是主题域?

什么是abtest?

基于小样本的后验方法,

abtest核心逻辑?

后验,页面设计,功能按钮调整,

abtest注意事项?

多方案,多变量评估

什么是漏斗分析?

业务流程,

漏斗分析注意的点?

步骤是连续的,转化不要超过5个,转化率不要低于1%,基础基于第一个和上一个,

看用户画像,每个步骤转化率分析,

指标是有更新频率的,

什么是北极星指标?什么是虚荣指标?

如用户体验指数

5,数据敏感性篇

6,其他好玩的问题

生活中有用过统计学解决问题么?

开车,在没有导航和电子狗时候,不比其他车开得快就行,

快速估计微信日活用户男女占比,

怎么看待数据分析?

不枯燥,帮我做的很有意思

立维网

2、如何理解过拟合?

过拟合和欠拟合一样,都是数据挖掘的基本概念。过拟合指的就是数据训练得太好,在实际的测试环境中可能会产生错误,所以适当的剪枝对数据挖掘算法来说也是很重要的。

欠拟合则是指机器学习得不充分,数据样本太少,不足以让机器形成自我认知。

3、为什么说朴素贝叶斯是“朴素”的?

朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。

4、SVM 最重要的思想是什么?

SVM 计算的过程就是帮我们找到超平面的过程,它有个核心的概念叫:分类间隔。SVM 的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上,这是一个凸优化问题。同样我们根据数据是否线性可分,把 SVM 分成硬间隔 SVM、软间隔 SVM 和非线性 SVM。

5、K-Means 和 KNN 算法的区别是什么?

首先,这两个算法解决的是数据挖掘中的两类问题。K-Means 是聚类算法,KNN 是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means 是非监督学习,也就是不需要事先给出分类标签,而 KNN 是有监督学习,需要我们给出训练数据的分类标识。最后,K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

将数据清洗规则总结为以下 4 个关键点,统一起来叫“完全合一”,下面我来解释下。

1、完整性:单条数据是否存在空值,统计的字段是否完善。

2、全面性:观察某一列的全部数值,比如在 Excel 表中,我们选中一列,可以看到该列的平均值、最大值、最小值。我们可以通过常识来判断该列是否有问题,比如:数据定义、单位标识、数值本身。

3、合法性:数据的类型、内容、大小的合法性。比如数据中存在非 ASCII 字符,性别存在了未知,年龄超过了 150 岁等。

4、唯一性:数据是否存在重复记录,因为数据通常来自不同渠道的汇总,重复的情况是常见的。行数据、列数据都需要是唯一的,比如一个人不能重复记录多次,且一个人的体重也不能在列指标中重复记录多次。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值