高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression

高斯分布Gaussian distribution/正态分布Normal distribution

1.广泛的存在

2020年11月24日,探月工程嫦娥五号探测器发射成功。其运转轨道至关重要,根据开普勒三大定律可以计算出一条曲线,但曲线只是一个理想轨道,现实中的轨道是有误差的,如何解决呢?这个问题困扰了科学界多年,直到高斯出版了《天体运行论》才有具体解决方案。书中介绍了一个方法:最小二乘法,前提是测量误差要符合正态分布。

“高富帅”,一个国家的成年男性的身高符合高斯分布;“双11”,产品的销售量也是符合高斯分布;“CET-4/6”,学生的考试成绩也符合高斯分布;“疫情隔离14天”,14天就是由高斯分布计算出来的……如此多截然不同事件的背后都有高斯分布的影子。

上海随机抽取了1000名男子,记录每个人的身高,将数据划分为50个区间,绘制频数直方图,发现身高174cm的人数最多,左右两端特别矮/高的人很少。将数据扩大10倍/100倍/10000倍,将区间绘制更细。可绘制出一条平滑曲线 —— 高斯分布/正态分布。

2.高斯分布

正态分布/高斯分布曲线像山峰,有高低陡缓,(中间高,两边低,两边对称)。由两个参数决定:均值μ(代表数据的平均水平)、标准差σ(代表数据的离散程度,标准差越大,一些数值离平均值差距较大,越离散,山峰越缓慢;标准差越小,数值较接近平均值,越集聚,山峰越陡。)

例:德芙巧克力VS苹果,德芙包装上显示43g,但与实际存在细微误差,其重量满足均值为43g的高斯分布,标准差非常小。将每个苹果称重,其重量也满足高斯分布,假设平均重量为250g,那么苹果的实际重量围绕均值250g左右对称分布,较于德福,其标准差非常大

3.3σ-准则

 

 (μ-σ,μ+σ)区间,事件落入其中的概率为68.2%;(μ-2σ,μ+2σ),事件落入的概率为95.4%;(μ-3σ,μ+3σ),事件落入的概率为99.73%;有人觉得 3σ-准则不够严苛,就有了六西格玛管理质量标准,即把区间扩大到(μ-6σ,μ+6σ),落入的概率为99.9998%,落入区间之外的概率仅为十亿分之二。

4.高尔顿钉板实验 — “九章”量子计算机问世

 

 “九章”中国量子计算新突破,求解数学算法高斯玻色取样的速度只需200秒,而目前的超级计算机要用6亿年。

玻色采样装置不只高尔顿钉板实验的左右两种选择了,而是会相互作用,且一次不止投放一个光子,可能是大批量的光子一起投入,这会导致高耗时的问题。

线性回归 — 最小二乘法

绘制商场中咖啡店的日均人流量(自变量x)与日均收入(被预测的变量,应变量y)的数据的散点图。

线性回归:用一条直线来拟合自变量和因变量之间的关系(线性方程y=kx+b)

如何得到这条直线?—— 最小二乘法。线性回归得到估计值,估计值与实际值越近越好,代表估计的值越准确。

逻辑回归logistics regression = 线性回归+sigmoid函数

数据挖掘中的一种算法,有啥用?用来解决二分类问题。不要被逻辑回归的“回归”二字所欺骗!!!

分类问题:判断数据所属类别的问题。二分类问题:分类问题的目标类只有两种类别

 回归和分类的区别?回归模型的输出时连续的,分类模型的输出是离散的。

 把线性回归的函数值作为sigmoid函数的输入

 

 如何求解

损失函数越小,回归模型越好! 

 求解不用手算,代码可以搞定!可用spark框架

 

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值