统计学习方法笔记 | Python实现 | Chapter1 统计学习方法概论

本文介绍了统计学习方法中的最小二乘法用于曲线拟合,并探讨了过拟合问题。通过Python代码展示了不同阶数多项式对数据的拟合效果,强调了正则化在降低过拟合中的作用。
摘要由CSDN通过智能技术生成

第1章 统计学习方法概论

参考:https://github.com/fengdu78/lihang-code

参考代码清晰易懂,本文只是将参考代码中的ipynb改写为python。


本章概要

1.统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。

2.统计学习方法三要素——模型、策略、算法,对理解统计学习方法起到提纲挈领的作用。

3.本书主要讨论监督学习,监督学习可以概括如下:从给定有限的训练数据出发, 假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。

4.统计学习中,进行模型选择或者说提高学习的泛化能力是一个重要问题。如果只考虑减少训练误差,就可能产生过拟合现象。模型选择的方法有正则化与交叉验证。学习方法泛化能力的分析是统计学习理论研究的重要课题。

5.分类问题、标注问题和回归问题都是监督学习的重要问题。本书中介绍的统计学习方法包括感知机、 k k k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场。这些方法是主要的分类、标注以及回归方法。它们又可以归类为生成方法与判别方法。

使用最小二乘法拟和曲线

高斯于1823年在误差 e 1 , … , e n e_1,…,e_n e1,,en独立同分布的假定下,证明了最小二乘方法的一个最优性质: 在所有无偏的线性估计类中,最小二乘方法是其中方差最小的!
对于数据 ( x i , y i ) ( i = 1 , 2 , 3... , m ) (x_i, y_i) (i=1, 2, 3...,m) (xi,yi)(i=1,2,3...,m)

拟合出函数 h ( x ) h(x) h(x)

有误差,即残差: r i = h ( x i ) − y i r_i=h(x_i)-y_i ri=h(xi)yi

此时 L 2 L2 L2范数(残差平方和)最小时, h ( x ) h(x) h(x) y y y 相似度最高,更拟合

一般的 H ( x ) H(x) H(x) n n n次的多项式, H ( x ) = w 0 + w 1 x + w 2 x 2 + . . . w n x n H(x)=w_0+w_1x+w_2x^2+...w_nx^n H(x)=w0+w1x+w2x2+...w

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值