面试宝典1

最新推荐文章于 2023-08-31 11:17:53 发布

三板斧数据侦探

最新推荐文章于 2023-08-31 11:17:53 发布

阅读量207

点赞数

分类专栏：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013120862/article/details/119531647

版权

数据分析专栏收录该内容

33 篇文章 3 订阅

订阅专栏

磊叔：

2，逻辑和统计学篇

热身问题，难度，区分度，

什么是描述性统计：

描述数据的基本情况，事实，平均数，中位数，分位数，方差，偏度，峰度

加权平均数的应用场景：

多指标分配权重方便计算，比如各省成绩，催收员排名指标，回款金额，金额回收率，笔数回收率，外访次数，有效外访率

加权平均数的前提是：

标准化，把不同指标的考察基准拉倒同一水平线对比。

例如：播放完成率，播放时长，播放次数，

怎么评估样本中的异常值？

评估日活，

找异常值：

分位数，q3-q1，上四分位值Q3与下四分位值Q1之间的差称为四分位距（IQR），即IQR=Q3-Q1。

什么是同比，环比？

环比是和相连续的上一个统计周期进行对比，环比是连续的。

同比是和同期的统计周期进行对比，同比是不连续的。

同比会加限定词，和2018年的同比

正式题目：

相关和因果有什么区别和联系？

相关是两个或多个互为相关的，没有先后顺序，

因果是前一个事件对后一个有影响

excel里面相关性分析，输出的是那种相关系数？

皮尔逊相关系数，前提是各个变量相互独立，

强相关p>0.5，这是理论

飞机失事，幸存者偏差？

流失客户为什么走，活跃用户大多是粉丝，

什么是聚类，业务应用场景，常见算法？

不知道多少类，年龄分类，特征工程

用户画像

常见算法，k-均值聚类，

什么是分类，业务应用场景，常见算法？

逻辑回归是分类算法，SVM，决策树（客群划分），

什么是回归，业务应用场景，常见算法？

评估回归算法的指标？

r方大于0.4

时间序列预测的核心逻辑和原理是什么？

excel中基于时间序列的预测算法是什么？

指数平滑，时间轴，

3，数据分析思路篇

4，数据分析技能篇

你理解的指标是什么？组成部分？业务应用场景？

指标是有业务意义的，反应业务变化，是有类型的，行为，

什么是指标体系？如何建立？业务应用的场景？

有严格的体系，

指标，维度和度量的区别和联系？

过去三年广州地区a产品的月活增长率

什么是主题域？

什么是abtest？

基于小样本的后验方法，

abtest核心逻辑？

后验，页面设计，功能按钮调整，

abtest注意事项？

多方案，多变量评估

什么是漏斗分析？

业务流程，

漏斗分析注意的点？

步骤是连续的，转化不要超过5个，转化率不要低于1%，基础基于第一个和上一个，

看用户画像，每个步骤转化率分析，

指标是有更新频率的，

什么是北极星指标？什么是虚荣指标？

如用户体验指数

5，数据敏感性篇

6，其他好玩的问题

生活中有用过统计学解决问题么？

开车，在没有导航和电子狗时候，不比其他车开得快就行，

快速估计微信日活用户男女占比，

怎么看待数据分析？

不枯燥，帮我做的很有意思

立维网

2、如何理解过拟合？

过拟合和欠拟合一样，都是数据挖掘的基本概念。过拟合指的就是数据训练得太好，在实际的测试环境中可能会产生错误，所以适当的剪枝对数据挖掘算法来说也是很重要的。

欠拟合则是指机器学习得不充分，数据样本太少，不足以让机器形成自我认知。

3、为什么说朴素贝叶斯是“朴素”的？

朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯，是因为它假设每个输入变量是独立的。这是一个强硬的假设，实际情况并不一定，但是这项技术对于绝大部分的复杂问题仍然非常有效。

4、SVM 最重要的思想是什么？

SVM 计算的过程就是帮我们找到超平面的过程，它有个核心的概念叫：分类间隔。SVM 的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上，这是一个凸优化问题。同样我们根据数据是否线性可分，把 SVM 分成硬间隔 SVM、软间隔 SVM 和非线性 SVM。

5、K-Means 和 KNN 算法的区别是什么？

首先，这两个算法解决的是数据挖掘中的两类问题。K-Means 是聚类算法，KNN 是分类算法。其次，这两个算法分别是两种不同的学习方式。K-Means 是非监督学习，也就是不需要事先给出分类标签，而 KNN 是有监督学习，需要我们给出训练数据的分类标识。最后，K 值的含义不同。K-Means 中的 K 值代表 K 类。KNN 中的 K 值代表 K 个最接近的邻居。

将数据清洗规则总结为以下 4 个关键点，统一起来叫“完全合一”，下面我来解释下。

1、完整性：单条数据是否存在空值，统计的字段是否完善。

2、全面性：观察某一列的全部数值，比如在 Excel 表中，我们选中一列，可以看到该列的平均值、最大值、最小值。我们可以通过常识来判断该列是否有问题，比如：数据定义、单位标识、数值本身。

3、合法性：数据的类型、内容、大小的合法性。比如数据中存在非 ASCII 字符，性别存在了未知，年龄超过了 150 岁等。

4、唯一性：数据是否存在重复记录，因为数据通常来自不同渠道的汇总，重复的情况是常见的。行数据、列数据都需要是唯一的，比如一个人不能重复记录多次，且一个人的体重也不能在列指标中重复记录多次。

三板斧数据侦探

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。