数据分布和各种检验。

最新推荐文章于 2024-01-24 17:33:02 发布

数据不吹牛

最新推荐文章于 2024-01-24 17:33:02 发布

阅读量656

点赞数

文章标签： python 机器学习人工智能数据分析大数据

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5Mjg2OTQ1MA==&mid=2247505745&idx=2&sn=a35c77ea2315ec6eadee557fc063cd8a&chksm=fe1bb674c96c3f62e84eaed62ab6abdb9c174d9cb2388bd377b82f0dc5b0f8efcfa2db7b8522&scene=126&&sessionid=0

版权

看数据分布，一看直方图，一看各种统计指标。具体看哪个指标，依然是老话：看场景。

统计指标有哪些：

【变异程度】：衡量数据的离散程度

1、极差：最大值-最小值

仅使用两个观测值度量变异程度，极其容易受到异常值的影响，一般不使用

2、四分位数间距IQR：IQR= Q3 - Q1 是中间50%数的极差

3、方差：使用所有数据对变异程度的一种度量

协方差是衡量两个指标变化方向的一致性

4、标准差：方差的平方根，和原始单位一致，衡量平均距离平均值的距离。如果有异常数值的话，会增大标准差

5、标准差系数：标准差/平均数

可以用来比较不同单位不同量级的变量变异程度

【数据分布】偏度、峰度

左偏的话偏度<0，右偏的话偏度>0
正态分布的峰度是3，所以一般峰度-3。越尖越大

【z分数】对相对位置的度量

【异常值检测】异常大或者异常小的数据，我们称之为异常值

正确的异常值
错误的异常值

可以使用标准化数值z来，或者使用分位数来判断异常值

【分位数】箱线图常用来分组对比数据分布情况

下限：Q1 - 1.5IQR
上限：Q3 + 1.5IQR
中位数：Q2
异常值：上下限之外的数值

【抽样】从总体中抽取有限样本对总体进行估计

由于是从总体中进行随机抽样，所以如果进行多次重复抽样，那么得到的样本肯定有所不同，但是他们中间又有重叠和关联

每一次随机抽样，都能够得到一个，所以它本身也就是一个变量，也就有所谓的均值、标准差、方差

【中心极限定理】从总体中抽取n个随机样本，当样本容量很大的时候，样本均值 的抽样分布服从正态分布

一般来说n=30的时候，分布就较能够符合正态分布了

的标准差，我们一般称之为标准误差，样本数量越大，相对的误差也就越小

因为我们不能指望随机抽出来的样本均值就是总体均值，我们给到的是一个概率和范围，也称之为区间估计

中心极限定理是置信区间/置信度的核心，深刻理解抽样分布和中心极限定理是后续的基石

【置信区间：点估计 +/- 边际误差】在预测以及AB中应用广泛

误差和置信水平有关，置信水平越高（99%），则区间越大；
误差和样本方差有关，样本方差越大，区间越大
误差和样本数量有关，样本数量越小，区间越大

【假设检验】运用在AB测试，模型的显著性检验，相关系数的显著性检验等领域

【第一类错误】如果原假设为真，而被我们拒绝了（新功能并没有比原功能更好，却被我们误以为新功能更好）的错误，叫做第一类错误。犯第一类错误的概率叫做显著性水平，一般我们会取0.05,0.1。
【第二类错误】如果备则假设为假，而被我们拒绝了（新功能比原功能更好，却没有被发现）的错误，叫做第二类错误。犯第二种错误的概率一般取0.2，反过来一般我们称之为统计功效 power = 1-

为了保证第一类错误和第二类错误控制在一定的水平，需要保证样本量大于某个阈值，AB测试样本量计算的原理

【独立两样本t检验】两个独立随机抽取的样本分布的均值/比例区别

两个独立随机样本的均值差距越远，越有可能不同，两个样本的方差越小，越有可能不同

【卡方检验】用于多分类变量的比例检验，计算期望和实际的距离

有个非常通俗易懂的文章可以看看：https://zhuanlan.zhihu.com/p/69888032

【方差分析】用来衡量多组样本是否均值相等

F = 组间（处理）方差/组内方差（误差） = SSTR/SSE

线性回归整体的显著性用的也是F检验，F=被解释的方差/残差

以上回顾的内容，都是非常基础的内容，但是在面试过程中发现，真的能掌握的人比例还不多，并且还都是名校毕业的孩子。越是基础越是重要，更具有普适性。

●用户留存分析，和几种方法。
●品牌知名度分析

数据不吹牛

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据分布和各种检验。

看数据分布，一看直方图，一看各种统计指标。具体看哪个指标，依然是老话：看场景。统计指标有哪些：【变异程度】：衡量数据的离散程度1、极差：最大值-最小值仅使用两个观测值度量变异程度，极其容易...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。