西瓜书第3章线性模型读书笔记

最新推荐文章于 2024-07-09 16:27:15 发布

Gaia0321

最新推荐文章于 2024-07-09 16:27:15 发布

阅读量288

点赞数

文章标签：数据结构与算法人工智能

原文链接：http://www.cnblogs.com/rongguohao/p/10881283.html

版权

^{第3章线性模型}

1.基本形式

1.1 线性模型（linear model）

试图学得一个通过属性的线性组合来进行预测的函数

函数形式：

向量形式：

1.2 非线性模型（nonlinear model）

在线性模型的基础上通过引入层级结构或高位映射而得

1.4 可解释性（comprehensibility/understandability）

ω直观表达了各属性在预测中的重要性

2.线性回归（linear regression）

2.1 定义与数学形式

试图学得一个线性模型以尽可能准确地预测实值输出标记

公式：

2.2 离散属性与序关系

有序属性值：连续化
无序属性值：one-hot化

2.3 性能度量-均方误差

公式：

2.3.1 欧氏距离（Euclidean distance）

2.3.2 最小二乘法（least square method）

基于均方误差对模型求解的方法
试图找到一条直线，使所有样本到直线上的欧式距离之和最小

2.3.3 最小二乘“参数估计”（parameter estimation）

ω和b最优解的闭式（closed-form）解

分别对ω和b求导
分别对求导后的式子等于零

2.4 多元线性回归（multivariate linear regression）

2.4.1 秩矩阵（full-rank matrix）或正则矩阵（positive definite matrix）

现实任务重的xTx往往不是满秩矩阵

2.4.2 归纳偏好决定多个解的选择

常见做法：引入正则化（regularization）项

2.5 对数线性回归（log-linear regression）令模型预测值逼近u的衍生物，例如ln(y)

2.5.1 在形式上仍是线性回归，但实质上已是在求取输入空间到输出空间的非线性函数映射

2.5.2 线性回归模型的预测值与真实标记联系起来的

2.6 广义线性模型（generalized linear model）

形式：

联系函数（link function） g(.)
对数线性回归是广义线性模型在g(.)=ln(.)的特例

3.对数几率回归（logistic regression，亦称logit regression）（不建议用逻辑回归说法）

3.1 分类任务怎么办？

3.1.1 二分类，使用单位阶跃函数（unit-step function）

3.1.2 替代函数（surrogate function）

在一定程度上近似单位阶跃函数单调可微

对数几率函数（logistic function），一种 Sigmoid函数

3.1.3 两个函数的联系

3.2 几率（odds）

假设

对数几率函数

带入假设

变换

几率是样本为正例跟样本为负例的比值

3.3 对数几率（log odds，亦称logit）

3.4 优点

直接对分类可能性进行建模，无需事先假设数据分布
可得到近似概率预测
对率函数是任意阶可导的凸函数，方便求最优解

3.5 极大似然法（maximum likelihood method）

3.5.1 凸优化理论

3.5.2 经典的数值优化算法，例如

梯度下降法（gradient descent method）
牛顿法（Newton method）

4.线性判别分析（Linear Discriminant Analysis，简称LDA）

4.1 LDA的思想

给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近，异类样例的投影点尽可能远离

4.2 二分类问题上称“Fisher判别分析”

类内散度矩阵（with-class scatter matrix） Sw
类间散度矩阵（between-class scatter matrix） Sb
LDA可从贝叶斯决策理论的角度来阐释
Sb与Sw的广义瑞利商（generalized Rayleigh quotient） LDA最大化的目标

LDA可达到最优分类，当

两类数据同先验
满足高斯分布
协方差相等

4.3 LDA可以推广到多分类任务

矩阵的迹（trace）

5.多分类学习

5.1 基本思路

拆解法：讲多分类任务拆为若干个二分类任务求解

5.2 最经典的拆分策略

一对一（One vs One，简称OvO）
一对其余（One vs Rest，简称OvR）
多对多（Many vs Many，简称MvM）

1）最常用技术：纠错输出码（Error Correcting Output，简称ECOC）编码矩阵（coding matrix）

二元码指定正类和反类

三元码还可以指定用类

2）OvO和OvR是MvM的特例

6.类别不平衡问题（class-imbalance）

定义：分类任务中不同类别的训练样例数目差别很大的情况

6.1 处理的基本方法

再平衡（rebalance）/ 再缩放（rescaling）

6.1.1 代价敏感学习（cost-sensitive learning）的基础

6.1.2 解决现实中没有“无偏采样”的做法

欠采样（undersampling）/下采样（downsampling）
过采样（oversampling）/上采样（upsampling）
阈值移动（threshold-moving）

7.阅读材料

7.1 稀疏表示（sparse representation）

稀疏性问题本质上对应L0范数的优化，通常是NP难问题
求稀疏解的重要技术 LASSO通过L1范数近似L0范数

7.2 MvM实现方式补充

ECOC
有向无环图DAG（Directed Acyclic Graph）
多类支持向量机

7.3 代价敏感学习

基于类别的误分类代价（misclassification cost）

7.4 多分类学习

每个样本仅属于一个类别

7.5 多标记学习（multi-label learning）

为一个样本同时预测出多个类别标记

转载于:https://www.cnblogs.com/rongguohao/p/10881283.html

Gaia0321

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书第3章线性模型读书笔记

第3章线性模型1.基本形式1.1线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数函数形式：向量形式：1.2非线性模型（nonlinear model）在线性模型的基础上通过引入层级结构或高位映射而得1.4可解释性（comprehensibility/understandability）ω直观表达了各属性...
复制链接

扫一扫