《5分钟说完一个概念》：什么是置信区间

最新推荐文章于 2023-10-15 11:32:07 发布

糖甜甜甜74

最新推荐文章于 2023-10-15 11:32:07 发布

阅读量911

点赞数

文章标签： python 数据分析统计学大数据机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Pylady/article/details/117970815

版权

本文探讨了在商业数据分析中如何利用置信区间来评估数据的可靠性。通过解释数据方差、标准差、样本量与标准误的关系，说明置信区间的计算原理。同时，讨论了非正态数据情况下置信区间的应用，强调了中心极限定理在处理非正态数据时的作用。

摘要由CSDN通过智能技术生成

在商业环境中，数据人员通常会收集一些数据，比如用户在网站上花费的时间，然后计算关于这些数据的一些统计数据，比如在网站上花费的平均或中值时间，最后呈现这些总结向业务提供统计数据。然而假设检查了 500 个会话，并计算出用户在网站上平均花费 10 分钟。你确定如果收集更多的数据，这个 10 分钟的平均值不会改变吗？是否偶然目睹了一个不可代表的样本？如果等到周末也收集数据，这会不会可能有所不同。我们怎么知道我们是否有足够的数据呢？如何量化我们对其计算的平均值、中位数等的信心？

数据方差和标准差

低标准偏差表明数据点往往接近平均值。很明显，如果我们收集的数据点更接近真实的平均值，我们往往对这个平均值更有信心。直观地演示一下，将生成两组 500 个正态分布的数据点，均值为 10，但一组的标准差为 1，另一组的标准差为 3。然后使用直方图绘制它们。

不同标准差的正态分布图

我们不需要广泛的统计知识就可以得出结论，我们可以对标准差较低的数据集（蓝色直方图）与标准差较高的数据集（橙色直方图）的平均值更有信心。

数据量大小（N）

当我们有数百万用户访问我们的网站时，我们计算他们花费的平均时间，结果是 10 分钟；如果我们随机抽取几个会话，比如说 5 个会话，它们的平均值不会正好是 10 分钟。如果我们抽取了 10,000 个会话的样本&#x

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《5分钟说完一个概念》：什么是置信区间

在商业环境中，数据人员通常会收集一些数据，比如用户在网站上花费的时间，然后计算关于这些数据的一些统计数据，比如在网站上花费的平均或中值时间，最后呈现这些总结向业务提供统计数据。然而假设检查...
复制链接

扫一扫

博客等级

码龄7年

58
原创

108
点赞

535
收藏

227
粉丝

关注

私信

热门文章

分类专栏

word 1篇
excel 5篇
python 10篇
机器学习 7篇
数学基础 2篇
R 2篇

最新评论

Sklearn ValueError: empty vocabulary; perhaps the documents only contain stop words
JY0222: 不管用啊
数据分析36计(25)：微软开源 DoWhy 之因果分析快速入门
m0_66658302: 请教～我在执行这一步estimands = model.identify_effect()print(estimands)时候，一直提示：没有变量，， Estimand type: EstimandType.NONPARAMETRIC_ATE ### Estimand : 1 Estimand name: backdoor No such variable(s) found! ### Estimand : 2 Estimand name: iv No such variable(s) found! ### Estimand : 3 Estimand name: frontdoor No such variable(s) found! 一样的数据一样的代码…我不理解...
数据分析36计(24)：因果推断结合机器学习估计个体处理效应
2301_77705138: 有完整的原文吗
数据分析36计(30)：关于 AB 实验的 1.5 万字总结
sea84: 我是在看《关键迭代：可信赖的线上对照实验》正态性假设那个部分（p179）的时候跟你有同样的疑惑，这本书还提到，对于使均值服从正态分布所需的最小样本量，一个经验法则是每个变体为偏度的平方的355倍。这个经验法则怎么来的可以看下面这篇文章的第七条rule， R. Kohavi, A. Deng, R. Longbotham, Y. Xu (2014) Seven Rules of Thumb for Web Site Experimenters. In: KDD'14. New York, NY, USA. 大概也能解答为什么有这个正态性的问题。
数据分析36计(24)：因果推断结合机器学习估计个体处理效应
2301_78017402: 有完整文章吗?

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。