西瓜书学习第三章学习笔记

最新推荐文章于 2024-07-16 18:50:37 发布

あいこ孙泽宇果果课踝棵裹

最新推荐文章于 2024-07-16 18:50:37 发布

阅读量82

点赞数

文章标签：学习笔记机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_73839843/article/details/132938915

版权

3.1一元线性回归

例题引入通过身高预测体重

收集到的一批样本数据并通过坐标轴表示，通过数据模型会发现一条于数据拟合的数学函数线。线性回归就是求得到的模型在x处获得的数据f（x）与样本数据y在平行Y轴上的误差并且使之最小，误差可以通过计算均方误差来进行比较，既

w（x,b）=Σ（yi-f（x））²

给定由d个属性描述的示例x=(x1;x2;...;xa); 其中xi是x在第 i个属
性上的取值，线性模型(linear model)试图学得一个通过属性的线性组合来进行
预测的函数，即

f(x)=W1x1+w2x2+..+wxd+b,一般用向量形式写成
f(x)=wx+b,
其中w=(W1;w2;...;wa).w和b 学得之后，模型就得以确定。

下面是常用的模型（假设空间):

1.仅通过身高预测体重

f（x）=W1X1+b，,认为身高是连续的，所以给他一个权重W1

2.二值离散特征（颜值）（好看为1，不好看为0）

f(x)=W1X1+W2X2+b

3.有序的多值离散型特征（饭量）这种数值存在一种叫做序的关系，饭量大的叫做1，饭量小的叫0。

f(x)=W1X1+W2X2+W3X3+b

4.无序的多值离散型特征（肤色）（黄[1,0,0] 黑[0,1,0] 白[0,0,1])每个数据都有着相同的地位与权重，相当于把每个数据拆成二值特征

f(x)=W1X2+W2X2+W3X3+W4X4+W5X5+W6X6+b

3.1.2最小二乘估计
基于均方误差最小化来进行模型求解的方法称为最小二乘法

E（x,b）=Σ（yi-f（x））² =Σ（yi-（WXi+b））² =Σ（yi-WXi-b）²

此时平行距离最小时为所求结果

3.1.3极大似然估计

用途：估计概率分布的参数值
方法：对于离散型(连续型)随机变量X，假设其概率质量函数为P(x；θ)(概率密度函数为p(x；θ)，其中θ为待估计的参数值(可以有多个)。现有X1，X2，X3，Xn是来自X的n个独立同分布的样本，它们的联合概率为
L(θ)=Π P(xi；θ)
其中X1，X2，X3，.，Xn是已知量，是未知量，因此以上概率是一个关于的函数，称L(0)为样本的似然函数。极大似然估计的直观想法：使得观测样本出现概率最大的分布就是待求分布，也即使得联合概率（似然函数）L(0)取到最大值的θ*即为θ的估计值。

例现有一批等待观测的样X1,X2,X3..Xn，假设其服从正态分布X～（μ，σ²），其中μ σ未知，请用极大似然估计求值。

1.第一步，写出随机变量X的概率分布函数

p（x；μ，σ²）=1/√2πσexp（-（x-μ）²/2σ²）

2.写出似然函数

L(μ,σ²)=Πp(xi;μ,σ²)=Π1/√2πσexp(-(xi-μ)²/2σ²

3.求出使得L（μ，σ²）取到最大值得μ，σ

对于线性回归来说，也可以其为一下模型

y=wx+b-ε

其中ε是不受控制的误差，通常假设为其服从均值为0的正态分布

所以ε的概率密度函数为

1/√2π σexp(-ε²/2σ²)

可利用y-wx-n替换ε 得到

L(μ,σ²)=Π1/√2πσexp（(-y-wx-b)²/2σ²）

=Σln1/√2πσ+Σlnexp（(-y-wx-b)²/2σ²）

=mln1/√2πσ-1/2σ²Σ(y-wx-b)²

其中，μσ是常数，所以最大化L（）就是最小化Σ(y-wx-b)²，等价于最小二乘估计。即为损失函数。

3.1.3求解在损失函数最小时的对应的w和b

1.证明E（w，b）是一个凸出集

定理设D∈R∧n是非空凸出集f：D∈R∧n->R,并f（小）在D上二阶连续可微，如果f（小）的海塞矩阵在D上是半正定的，则f（x）是D上的凸函数。因此，只需要证明E(w,b)=Σ（yi-wxi-b）的海塞矩阵是半正定的。

Δ²E（w，b）=[δ²E(w,b)/δγ² δ²E(w,b)/δbγ ]

[ δ²E(w,b)/δγb δ²E(w,b)/δ ² ]

经过二阶求导所得到的矩阵为

Δ²E（w，b）=[2ΣXi² 2ΣXi]

[2ΣXi 2m ]

半正定的矩阵的判定定理是若实对称矩阵的所有顺序子式均是非负的，该矩阵半正定。

Δ²E（w，b）=[2ΣXi² 2ΣXi]

[2ΣXi 2m ]=4mΣxi²-4（Σxi）²

可得次矩阵大于0，E（w，b）是一个凸函数

2.根据凸函数性质求w，b。

凸函数充分性定理：若f是凸函数，并且f一阶连续可微，则x*是全局的必要条件是ΔE（x* ）=0。

ΔE（w，b）=0的点也是最小值点。即

ΔE（w，b）=[δE(w,b)/δw]=[0]

[δE(w,b)/δb] [0]

根据两个一阶导数列出方程组即可求解w，b。

小结

机器学习三要素

1.模型：根据具体问题，确定假设空间。

2.策略：根据评价标准，确定最优模型的策略（通常会产出一个损失函数）

3.算法：求解损失函数，确定最优模型。

3.2多元线性回归

更一般的情况下，类似开头提到的含有多个属性的情况即

f(x)=W1x1+w2x2+..+wxd+b,一般用向量形式写成。

与一元线性回归一样，也需要通过求的最小的损失函数来确定w与b。

为此我们可以将f（x）的b改写，写成

f(x)=W1x1+w2x2+..+WdXd+W(d+1)*1

w∧=(W1,W2..,W（d+1) )

x∧=(X1,X2..,1)

因此f（x）可以写成f（x∧）=w∧*x∧（两个向量内积的形式）

又最小二乘法

Ew=Σ（yi-f（x∧））²=Σ（yi-w∧x∧）²

线。

与前面一元线性回归推导过程类似，不再具体推导。

此时要拟合的曲线可能受多个因素影响。

f（x）=W1X1+W2X2+...+WdXd+b

前面提到的 X 就变为西瓜书中所示：

x=[x11 x12 ..x1d] [X1t 1]

[x21 x22..x2d] = [X2t 1]

. . . . .

[xm1 xm2..xmd] [x3t 1]

求解W仍然是：

W=(XtX)∧-1XY

3.3.1 单位跃迁函数与对数几率函数

分类任务也可以作为线性模型的推广，以二分类为例，对z=wTae+b，我们需要把z转化

为0/1值，那么理想的转化是这样的

{ 0， z<0;

f(x)= { 0.5, z = 0;

{ 1， z ＞ 0;

这就是“单位跃阶函数”。但它的缺陷是不连续，所以没法直接用作广义线性模型中的

g1（·）为此我们选择了一个能近似单位跃阶函数的替代函数，这里我们选择了对数几率函数

y = 1/1+e∧-2

将对数几率函数作为g-1(·)建立广义的线性模型

y= 1/1+exp(wTx+b)

可化为

ln(y/1-y) =wTx+b

如果把y视为样本c作为正例的可能性，则1-y是其反例的可能性，两者的比值

称为几率，反映了x作为正例的相对可能性，对几率取对数，就称为“对数几率”

1n(y/1-y)

所以说对数几率模型的本质是用线性回归的预测结果去逼近真实标记的对数几率。这种方法的优点如下：

1.直接对分类可能性进行建模，无需事先假设数据分布，避免了假设分布不准确的问题；

2.不仅预测出“类别”，而是得到近似概率预测，对概率辅助决策的任务很有用；

3.对数回归模型需要求解的目标函数是任意阶可导的凸函数，有很好的数学性质，现有的许多数值优化算法都可直接用于求取最优解。

あいこ孙泽宇果果课踝棵裹

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书学习第三章学习笔记

其中X1，X2，X3，.，Xn是已知量，是未知量，因此以上概率是一个关于的函数，称L(0)为样本的似然函数。极大似然估计的直观想法：使得观测样本出现概率最大的分布就是待求分布，也即使得联合概率（似然函数）L(0)取到最大值的θ*即为θ的估计值。定理设D∈R∧n是非空凸出集f：D∈R∧n->R,并f（小）在D上二阶连续可微，如果f（小）的海塞矩阵在D上是半正定的，则f（x）是D上的凸函数。θ)，其中θ为待估计的参数值(可以有多个)。现有X1，X2，X3，Xn是来自X的n个独立同分布的样本，它们的联合概率为。
复制链接

扫一扫

あいこ孙泽宇果果课踝棵裹 CSDN认证博客专家 CSDN认证企业博客

码龄2年

5: 原创

203万+: 周排名

31万+: 总排名

376: 访问

: 等级

50: 积分

0: 粉丝

0: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

最新评论

西瓜树学习第五章
CSDN-Ada助手: 恭喜您写完了第四篇博客，题目为“西瓜树学习第五章”。您的持续创作精神值得赞扬！通过您的文章，不仅了解到了有关西瓜树学习的知识，还能感受到您对学习的热情和坚持不懈的态度。接下来，我想提供一些建议给您，希望能帮助您在创作中不断进步。您可以考虑添加更多实例或案例，以更具体的方式展示西瓜树学习的应用场景和实践经验。此外，如果您能提供一些有关西瓜树学习的深入分析和个人见解，将会更加丰富和独特。再次恭喜您，并期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
西瓜书第六章学习笔记
CSDN-Ada助手: 恭喜您写了第五篇博客！阅读你的学习笔记让我感到非常兴奋，因为你对《西瓜书》第六章的理解和总结让我受益匪浅。希望你能继续保持这样的创作热情，坚持不懈地分享你的学习心得。如果可能的话，我建议你在下一篇博客中加入一些实际的案例分析或者个人观点，这样可以更好地吸引读者并丰富内容。期待你的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。