【机器学习】【Python】深入浅出Python机器学习-读书笔记整理

0 写在开头

趁着现在在家还没开学,把之前的笔记和记的一些东西整理一下。
资料:《深入浅出Python机器学习》
学习时间:2018.10


1 KNN

  • 分类任务,多元分类任务,回归分析。
  • 实战:酒的分类
  • 核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
  • 实际存在问题:高维数据集拟合欠佳,对稀疏数据集束手无策,对规模超大的数据集拟合时间较长

2 广义线性模型

线性回归

  • 也称为普通最小二乘法(OLS)。
  • 找到训练数据集中的预测值和其真实值的平方差最小的时候,所对应的w和b。训练集的得分和测试集的得分存在巨大差异:出现过拟合。
  • 数据量越大,线性回归模型越不容易产生过拟合现象。

岭回归

  • 使用L2正则化的线性模型。(实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。)
  • 保留所有的特征变量,但减小特征变量的系数值,让特征变量对预测结果的影响变小。——正则化
  • 复杂度越低的模型,在训练数据集上表现越差,泛化能力越好。
  • 提高alpha值,降低特征变量的系数,降低过拟合程度,模型限制更加严格,有助于泛化。alpha非常小时,和线性回归接近。

lasso回归(套索回归)

  • L1正则化
  • Lasso回归能够使得损失函数中的许多θ均变成0,这点要优于岭回归,因为岭回归是要所有的θ均存在的,这样计算量Lasso回归将远远小于岭回归。
  • alpha太低相当于去除了正则化效果

弹性网模型

  • 综合了套索回归和岭回归的惩罚因子
  • 选用原则:如果有很多特征,并不是每一个都对结果有重要的影响,则用L1正则化模型如lasso回归;特征不多且每一个都有重要的作用,用L2正则化,岭回归

其他线性模型

其他线性模型还有:逻辑斯谛回归,线性支持向量机(Linear

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值