求总体标准差的置信区间_机器学习的核心概念置信度和置信区间,我用这个例子把它讲明白...

过去两个月,例子君每天总结和梳理小例子,关于Python基础、常用内置库、正则表达式、装饰器、生成器、迭代器、绘图工具,Python多线程等。它们很简单,也就几行代码,各位读者反映也很不错哒,养成了每天看小例子的习惯。

5677c460c92136c5125e9080ca95e53d.png

例子君很高心能得到大家的喜爱,也会再接再厉,继续坚持,争取创作出更加优质的小例子。已有的200个小例子,没有看到的童鞋,直接点击下面链接: 5d547a052081cefb2e5ee2414204e60a.gif 例 子君 ,带你过去。

接下来,bee君出场了,勤劳的小bee君,将会每天起早或晚归继续奋战在电脑前,为大家输出更加高质量的原创文章。

5590fda152cff5703dc967df2b74205a.gif

人都是有惰性的,尽管勤奋程度还算可以,但是有时也偷懒。今天晚上本来想着躺在床上玩耍来着,想到实力不允许,还得继续复习基础知识,扎实输出点干货。

关注我时间久的老读者,可能点进来后被吓住了,这还是之前的那个小编吗?他的文章署名不是flody, zhenguo 或 zglg吗?今天怎么是bee君了呢。。。

哈哈哈,这几天,我翻看之前的文章,看完一篇,觉得通篇好枯燥啊,难道就不能添加点表情吗,好得也为这么干的文章添加点乐趣吧,自己都看不下去,还要祈求更多的人点开看你。所以,我先尝试做出几点改变啊:

1) 自己的原创文章署名:bee君,以后bee君就是小编了,小编就是bee君;

2) 文中会适当添加符合文章风格和主题的表情图,添点乐子,同时更好表达我想说的;

3) 了解我的读者知道,平时上班9>9*,如果当天空余时间很少,我会写一篇直击要害的技术小短文,实在没时间,我会分享一篇技术大佬的好文;如果时间较多,我会写一篇长点的包括多个知识点的文章;

4) 2020后半年,我的生活将会有一些重大改变,到时相信会有更多的课余时间,为大家推送更多高质量的技术文章;

5) 以上所有,都是出于热爱,写作已经成为生活的一部分。

那么,接下来,我会更多推送偏向Python数据分析,Python机器学习,深度学习的系列文章,主要围绕这几条线展开。所有的文章,尽量保证承前启后,是一个系列,一个系列的,杜绝东一榔头西一棒子。

4c0567d4966ca2b1c6f801ed1b06072f.png

注意我不是什么所谓的大神,就是喜欢总结点东西而已,所写的这些笔记也都得有个参考,主要的输入形式包括,项目中用到的重要技能包和工具包,不一定是自己很熟的,我更喜欢写一些自己不熟的,经过查查资料,产生独特理解的,这种写起来,会非常嗨;再有,我也关注了很多公众号,他们推送的文章对我有启发,让我产生独特的一些想法或理解,这种我也会写;看书,看视频,github,博客等等,只要是对自己和大家有用的技能。

我会尽量写的通俗易懂,当然这是有相当挑战的,有些知识压根就不是那么易懂,再加上个人能力有限,理解不到位,不深刻,所以就更难写的通俗易懂,但是这不妨碍,我继续前行,这是我的目标,我会不断向前,螺旋式的靠近目标。我也很感激你们的陪伴,这个舞台,我自己一个人瞎逼逼,更有可能会半途而废,但是有了你们的观看,我将会义无反顾,往前走。

好了,言归正传

7655d3481034f7d38c482f1e696f761c.png

1 引出概念

今天,讲一个数据分析或机器学习里非常重要的概念,置信度和置信区间。为什么说置信度和置信区间非常重要?举个例子。

拿到一个电影数据集,为了挑选出喜剧类型的电影,在豆瓣上评分前10名。这看似并不困难,使用pandas几行代码差不多就能完成分析,给出一个结果。

但是,当回过头来仔细检查时,却发现,选出的10部电影,竟然有5部电影只有一个人评分,并且都是给了10分。

基于这种情况,评选出的前10名,自然不能服众,不具有很强的说服力。

d7f20a186a324d6fc101387630ae6a26.png

我们更期望的是,一部电影被众多观影者打分,然后从这些电影中,挑选得分更高的电影。

这里就能引出:置信度和置信区间的概念。

一部电影被众多人打分,最后平均得分为8.5,那么这部电影的得分在8.2~8.8分,置信度将会很高,假设为90%;

相反,一部电影只有两个人打分,尽管最后平均分为9.5分,但是在区间:9.2~9.8分的置信度,可能就没那么高,预估为50%吧。言外之意,这个置信区间9.2~9.8被否的可能性会更大,毕竟只有50%吗。

2 理论解释 如果我们叫无数个观影者给某部电影打分,下面的图就是总体分布图,其平均得分为 μ ,标准差为 σ : b97919d03959693b4f5a62ff01474b0f.png 如果我们已经得出μ 和 σ ,我们可以说约 68% 的样本会落在红色区域:平均得分在上下两个 σ内的置信度就是95%. c60187f06a518f3d2082576682a49554.png 假设样本无穷大,这样得到某部电影的平均得分就是总体分布得分,平均分为0.65分(满分为1分), 标准差为0.03.  那么这部电影的平均得分在置信区间0.62~0.68 分的置信度约为95%. 所以,为了增强结果的说服力,可以过滤掉那些被评分较少的电影,那么到底少于多少就应该被过滤掉,这里也有说法。 3 求95%置信度对应样本个数

c520926f21cd99034c71e69dcbfbd922.png

已知样本标准差,Z值,置信区间的长度,根据公式,便能计算出样本个数,具体计算公式大家自行查询,在此不列出。

表格参考如上,如果我们按照95%的置信度,允许误差为5%的话,需要的样本个数至少为385.

所以,我们的问题已经解决了,要找出至少有385次被评分的所有电影,按照喜剧的平均分依次从大到小排序,选出前10.

因为用到Z值,在此说明下Z值的求法,作为知识扩充。

4 求95%置信度对应的Z值

允许电影评分有左右各有误差,即0.05/2=0.025。 此时要查尾部面积是0.025时的Z值。 查Z值表时要在表中间找到0.975。 从这一行水平往左得到1.9,往上对得到0.06,把两个数加起来就是1.96。

5 求95%置信度对应的置信区间

计算置信区间: 第一步,已知样本, 求样本平均值、标准差和标准误差 。样本标准误差:

79bd05ad8af7cf2cb733b8024bd728d8.png

第二步,确定置信度(置信水平), 常用的置信度是95%。   第三步,求置信区间[a,b]上下限,Z值求法参考上面,所以容易得出: a = 总体平均值 - Z*标准误差 b = 总体平均值 + Z*标准误差 以上这些知识点,相信大家在网上也能搜出来,但是学习最重要的是知识逻辑梳理。一个一个的知识点这就好比放到那里的一个一个的珠子,而知识的逻辑体系就好比那一根线,它把一个一个的珠子串联起来,这根线就是逻辑线。我更希望通过辛苦总结,形成这样一根串珠子的线,这才是最大的价值所在,而像珠子的知识获取手段目前从来都不匮乏。

d05ca32e16797b72686431c0056c7c32.png

Python与算法社区

若有用,点在看,帮助更多人
相关资源:TongWeb技术文档合集
已标记关键词 清除标记
表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
相关推荐
©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页