西瓜书--第三章读书笔记

第三章 线性模型

1、线性模型的基本形式

w因为直接展示属性在预测中的重要性,所以线性模型有着很好的解释性。我们可以直观的看到每个属性的对于预测结果的权重。

2、均方误差,用来衡量w和b这两个参数,以此来缩小预测值到实际值的差距:

 w和b的最优解,即为:

 为所有样本的均值。

对于有m个样本的数据集,数据集D可以用矩阵X表示:

 

 

要注意的一点是,我们的矩阵不一定是满秩矩阵,比如有一些超多变量的矩阵,就会导致列数多于行数,常见的做法是引入正则化项。

3、对数线性回归和广义线性模型

 

4、对数几率回归(很多地方写成逻辑回归):

 这样,预测的y就会落在0到1之间:

 这种方法有很多优点,例如它是直接对分类可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题;它不是仅预测出"类别",而是可得到近似概率预测,这对许多需利用概率辅助决策的任务很有用;此外,对率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解。

 5、线性判别分析

其实就是把样例投影到一条直线上,使得同类的投影尽量近,另一类的投影尽量远。

6、多分类学习

使用二分类方法引申至多分类问题,有一对一,一对其余和多对多的方案:

 

7、对于类别不平衡的问题,我们可以使用欠采样、过采样和阈值移动,阈值移动就是先根据不平衡的训练集训练出模型来,再把预测的结果根据正反样例的比例放大或缩小。欠采样就是去除样例多的类中的样例,过采样就是反过来做。 

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值