磊叔:
2,逻辑和统计学篇
热身问题,难度,区分度,
什么是描述性统计:
描述数据的基本情况,事实,平均数,中位数,分位数,方差,偏度,峰度
加权平均数的应用场景:
多指标分配权重方便计算,比如各省成绩,催收员排名指标,回款金额,金额回收率,笔数回收率,外访次数,有效外访率
加权平均数的前提是:
标准化,把不同指标的考察基准拉倒同一水平线对比。
例如:播放完成率,播放时长,播放次数,
怎么评估样本中的异常值?
评估日活,
找异常值:
分位数,q3-q1,上四分位值Q3与下四分位值Q1之间的差称为四分位距(IQR),即IQR=Q3-Q1。
什么是同比,环比?
环比是和相连续的上一个统计周期进行对比,环比是连续的。
同比是和同期的统计周期进行对比,同比是不连续的。
同比会加限定词,和2018年的同比
正式题目:
相关和因果有什么区别和联系?
相关是两个或多个互为相关的,没有先后顺序,
因果是前一个事件对后一个有影响
excel里面相关性分析,输出的是那种相关系数?
皮尔逊相关系数,前提是各个变量相互独立,
强相关p>0.5,这是理论
飞机失事,幸存者偏差?
流失客户为什么走,活跃用户大多是粉丝,
什么是聚类,业务应用场景,常见算法?
不知道多少类,年龄分类,特征工程
用户画像
常见算法,k-均值聚类,
什么是分类,业务应用场景,常见算法?
逻辑回归是分类算法,SVM,决策树(客群划分),
什么是回归,业务应用场景,常见算法?
评估回归算法的指标?
r方大于0.4
时间序列预测的核心逻辑和原理是什么?
excel中基于时间序列的预测算法是什么?
指数平滑,时间轴,
3,数据分析思路篇
4,数据分析技能篇
你理解的指标是什么?组成部分?业务应用场景?
指标是有业务意义的,反应业务变化,是有类型的,行为,
什么是指标体系?如何建立?业务应用的场景?
有严格的体系,
指标,维度和度量的区别和联系?
过去三年广州地区a产品的月活增长率
什么是主题域?
什么是abtest?
基于小样本的后验方法,
abtest核心逻辑?
后验,页面设计,功能按钮调整,
abtest注意事项?
多方案,多变量评估
什么是漏斗分析?
业务流程,
漏斗分析注意的点?
步骤是连续的,转化不要超过5个,转化率不要低于1%,基础基于第一个和上一个,
看用户画像,每个步骤转化率分析,
指标是有更新频率的,
什么是北极星指标?什么是虚荣指标?
如用户体验指数
5,数据敏感性篇
6,其他好玩的问题
生活中有用过统计学解决问题么?
开车,在没有导航和电子狗时候,不比其他车开得快就行,
快速估计微信日活用户男女占比,
怎么看待数据分析?
不枯燥,帮我做的很有意思
立维网
2、如何理解过拟合?
过拟合和欠拟合一样,都是数据挖掘的基本概念。过拟合指的就是数据训练得太好,在实际的测试环境中可能会产生错误,所以适当的剪枝对数据挖掘算法来说也是很重要的。
欠拟合则是指机器学习得不充分,数据样本太少,不足以让机器形成自我认知。
3、为什么说朴素贝叶斯是“朴素”的?
朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。
4、SVM 最重要的思想是什么?
SVM 计算的过程就是帮我们找到超平面的过程,它有个核心的概念叫:分类间隔。SVM 的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上,这是一个凸优化问题。同样我们根据数据是否线性可分,把 SVM 分成硬间隔 SVM、软间隔 SVM 和非线性 SVM。
5、K-Means 和 KNN 算法的区别是什么?
首先,这两个算法解决的是数据挖掘中的两类问题。K-Means 是聚类算法,KNN 是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means 是非监督学习,也就是不需要事先给出分类标签,而 KNN 是有监督学习,需要我们给出训练数据的分类标识。最后,K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。
将数据清洗规则总结为以下 4 个关键点,统一起来叫“完全合一”,下面我来解释下。
1、完整性:单条数据是否存在空值,统计的字段是否完善。
2、全面性:观察某一列的全部数值,比如在 Excel 表中,我们选中一列,可以看到该列的平均值、最大值、最小值。我们可以通过常识来判断该列是否有问题,比如:数据定义、单位标识、数值本身。
3、合法性:数据的类型、内容、大小的合法性。比如数据中存在非 ASCII 字符,性别存在了未知,年龄超过了 150 岁等。
4、唯一性:数据是否存在重复记录,因为数据通常来自不同渠道的汇总,重复的情况是常见的。行数据、列数据都需要是唯一的,比如一个人不能重复记录多次,且一个人的体重也不能在列指标中重复记录多次。