datawhale西瓜书打卡——第三章“线性模型”

日常事情多,计划的五天学习任务最后只花了一个多小时看完。有些比较硬核的数学推导直接掠过。原因有二,一是推导花时间,最近要应付的任务多;二是涉及的线代和概统这块的数学知识很久没接触了,大一那会学的也不是十分透彻,需要专门找段时间补补。

现在的目标是系统梳理和疏通一下平常接触到的那些概念。

第三章是线性模型,线性模型,啊,那是耳熟能详,但是仔细一想又好像抓不住内核。这是因为平常听多了某个术语会产生我们已经了解这方面知识的错觉。生活经常这样,太多阻止你通向真理的障眼术了。
面对这种情况呢,首先问自己,这个东西(术语一般都是某种抽象的概念)是什么?用来做什么?如何做?
比如眼前这个线性模型吧,问问自己,什么是线性模型?线性模型有什么作用,实现了什么功能?然后带着这些疑问开始看书。

看书的心理活动:

线性模型的概念是从回归问题引入的。
那什么是回归问题呢?
就是给你一堆收集好的数据D={(x1,y1),(x2,y2)···}每一组(xi,yi)就是一个样本,其中xi是属性的集合,也就是一组向量啦,第一二章将数据集的时候说清楚过。
有了这个数据集,当我们来了一个只有与x的新样本的时候,想知道这个样本的y是多少,这样就产生了回归问题,也就是从已有的数据中找出潜在的模型规律,这样来一个新样本的时候就能预测出它对应的y值。
那怎么找这个回归模型呢?回归模型长什么样呢?要确定哪些参数呢?通过什么算法确定呢?
ok,带着疑问继续看书。
在这里插入图片描述
线性模型就长这个样子,就是对x进行加工的一种函数啦。
当x只有一个属性值的时候就是我们很早就接触过的一元线性回归,一元线性回归的话,要求的w就是一个数了,高中的时候就用过最小二乘法来求这个w(那个时候可能用k来表示)。
所谓最小二乘法,就是你确定模型参数的一种原则,一种算法。最小二乘是通过最优化均方差(f(x)和真实值之间的差的平方)来确定参数的。
自然地,当x有多个属性值时,就是多元线性回归了,这个时候w就是一组数了,这时候通过最小二乘法来计算这个w就涉及到矩阵运算和求导部分的纯数学知识了。
说完线性回归,书中又提了对数几率回归。这两者是怎么过渡的呢?
在这里插入图片描述
看这个图,有时候我们将已知的样本点描点后会发现y值呈指数变化,而不是线性,这个时候就可以用对数线性回归这个工具对新样本进行预测。
那对数回归这个模型长什么样?
在这里在这里插入图片描述
有了线性回归和对数线性回归,就可以看见一般的(也即广义上的)线性模型的影子啦!
在这里插入图片描述
也就是把原来的线性回归预测值再加一层函数进行非线性加工,这样对其他规律变化的数据有更全面的适用。
为了方便后续指代,令wx+b这块数据叫z,z是实数连续值。
在这里插入图片描述
当样本数据集的y是离散的,比如y∈(0,1),这个时候的回归问题就变成了分类问题!我们要预测的y不再是连续的某个实数值,而是0或者1。
那好办呀,不是有广义线性模型吗?我们只需要将z通过某种可微分函数转换成输出为0或1的y不就行了吗?
马上就能阶跃函数,z小于0输出0,z大于0输出1。但阶跃函数在x=0处不可微,因为就有了平滑可导的对数几率函数(sigmoid函数)。
在这里插入图片描述
这样令联系函数g为sigmoid函数就可以对样本进行分类了。
前面举的例子其实是一个二分类的问题,如果是多分类呢,y∈(1,2,3,4,5·····)
如果效仿二分类,岂不是要找到一种联系函数,使得z经过这个函数能够输出不同的离散值?
但答案不是这样,多分类任务还是像搭积木一样把数学问题留在了二分类了,通过巧妙的拆分来将多分类化解成多个二分类。
在这里插入图片描述
左边这个是一对一拆分,将不同类别的数据两两配对,然后针对这个配对的数据集产生一个分类器,最后来了一个新样本时,根据所有分类器的分类结果的投票产生最终结果。
右边这个是一对多拆分,每次将一个类别作为正例,其他类别都为反例进行训练,得到一个分类器。来了一个新样本时,分类器输出正例且置信度最高的为分类结果。
在一对多这种拆分方式里,很容易会产生一个疑问,一般一个数据集里,不同类别的样本数一般规模一致,但这样一对多拆分了,正例和反例的样本集小明显有比例倾泻啊,这可咋办?
这个疑问其实就是下面的类别不平衡问题
一般来说,解决类别不平衡问题方法有三:①欠采样,去掉一些负样本来平衡。②过采样,通过插值增加一些正样本来平衡。③阈值移动法。
前两种都很好理解,下面说说第三种。
理想情况下,我们拿到的样本数据应该是真实存在的总体样本的无偏估计,也就是说样本中的观测几率就代表了真实几率,因此分类器的决策应是下面这样:
在这里插入图片描述
但真实的分类器按照下面这样决策的
在这里插入图片描述
因此对预测值y进行再缩放:
在这里插入图片描述
这种做法就是阈值移动法。

连续的思考把第三章的线性回归、对数几率回归(其实是分类)、多分类问题、类别不平衡问题都串起来了。
就剩线性判别分析。
同样的套路,什么是线性判别分析?
带着疑问看书。
线性判别分析,也就是常说的LDA,就是将数据集中所有样投影到一条直线上,这条直线很特殊,数据集中同一类的样本投影点都很靠近,而不同类别的样本点的投影都彼此远离。
这条直线这么特殊,怎么求它的参数?通过什么优化方法?好了好了又是公式推导,我直接略过了,下一个机缘巧合再看。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值