西瓜书第三章

最新推荐文章于 2024-10-20 06:48:47 发布

DACHANGxiaoliu

最新推荐文章于 2024-10-20 06:48:47 发布

阅读量76

点赞数

文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/DACHANGxiaoliu/article/details/125383146

版权

这篇博客介绍了线性模型的基础知识，包括线性回归、均方误差、最小二乘法、多元线性回归和广义线性回归的概念。同时，讨论了Sigmoid函数在神经网络中的作用。此外，文章还涉及线性判别分析（LDA）的原理，以及如何解决多分类学习问题，如OvO和OvR策略。最后，提到了类别不平衡问题在实际应用中的挑战。

摘要由CSDN通过智能技术生成

1.线性模型

2.线性回归

均方误差：均方误差亦称为平方损失，是回归任务中最常用的性能度量。

最小二乘法：基于均方误差最小化来进行模型求解的方法。

多元线性回归：亦称多变量线性回归。

广义线性回归：广义线性模型的参数估计常通过加权最小二乘法或极大似然法进行。

Sigmoid函数：Sigmoid函数是形似S的函数，对数几率函数是Sigmoid函数最重要的代表，在神经网络中有重要的作用。

极大似然法：设总体X是离散型随机变量，其概率函数为p(x, θ)，其中θ是未知参数。设X1,X2,…,Xn为取自总体X的样本，则可求出X1,X2,…,Xn的联合概率函数。如果样本取值x1,x2,…,xn，则事件(X1=x1,X2=x2,…,Xn=xn)发生的概率是为可求，这一概率值随θ的值的变化而变化，从直观上来看，既然样本值x1,x2,…,xn已经出现，它们出现的概率相对来说应比较大，应使其概率取比较大的值。极大似然法就是在参数θ的可能取值范围内，选取使*L(θ)*达到最大的参数值θ，作为参数θ的估计值。即取θ，使得L(θ)=L(x1,x2,…,xn; θ)=max(x1,x2,…,xn; θ)。

3.线性判别分析

线性判别分析，简称LDA，是一种经典的线性学习方法。它的思想非常朴素：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

4.多分类学习

考虑N个类别C1，C2，…，Cn，多分类学习的基本思路是“拆解法”，即将多分类任务拆为若干个二分类任务求解。

拆分策略：“一对一”（简称OvO），“一对其余”（简称OvR），“多对多”（简称MvM）。OvO和OvR是MvM的特例。

纠错输出码：简称ECOC，一种最常用的MvM技术。
ECOC是将编码的思想引入类别拆分，并尽可能在解码过程中具有容错性。ECOC工作过程主要分为两步：
编码对N个类别做M次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成一个二分类训练集；这样一共产生M个训练集，可训练出M个分类器。
解码 M个分类器分别对测试样本进行预测，这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。

5.类别不平衡问题