西瓜书零碎

最新推荐文章于 2023-11-12 15:46:54 发布

sunghosts

最新推荐文章于 2023-11-12 15:46:54 发布

阅读量404

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/sunghosts/article/details/107010395

版权

机器学习专栏收录该内容

36 篇文章 2 订阅

订阅专栏

离散属性连续化: 如果属性值间有“序”的关系，如身高的高和矮转成{1.0， 0.0}，三值属性高、中和低转化成{1.0，0.5， 0.0}；如果不存在序的关系，转化成 k 维向量，如西瓜、南瓜、黄瓜转成（0,0,1）（0,1,0）（1,0,0）

若将无序属性连续化，则会不恰当地引入序关系，对后续处理如距离计算等造成误导，比如评估时，经常需要计算距离

最小二乘法: 基于均方误差最小化来进行模型求解的方法。

凸函数

若二阶导数在区间上非负，则称为凸函数，若二阶导数在区间上恒大于0，则称为严格凸函数

规范化是将不同变化范围的值映射到相同范围中，常见的是[0,1]，此时亦称为归一化。

Sigmoid函数即形似S的函数，对数几率函数是其典型代表。

对数几率回归求目标函数最优解的算法：

梯度下降法：是一种一阶优化方法，是求解无约束优化问题最简单、最经典的方法之一。只要求目标函数一阶可导，不使用高阶导数。

牛顿法：典型的二阶优化方法，使用目标函数的二阶导数，其迭代轮数远远小于梯度下降法，但在迭代中使用海森矩阵的逆矩阵，其计算复杂度相当高，在高维问题中几乎不可行。

拟牛顿法：在牛顿法基础上，寻找较低代价求得海森矩阵的近似逆矩阵

给定样本 $x_i=(x_{i1}; x_{i2};...;x_{in})$ 与 $x_j=(x_{j1}; x_{j2};...;x_{jn})$ ，最常用的是“闵可夫斯基距离”

$dist_{mk} (x_i, x_j) = (\sum_{u=1}^n |x_{iu} - x_{ju}|^p)^{\frac{1}{p}}$

上式也是$ x_i - x_j$ 的 $ L_p $ 范数。当p 等于1时，即 $L_1$ 范数也叫曼哈顿距离，当 p 等于2时，即 $L_2$ 范数也就欧式距离。

二次规划包括凸二次规划和非凸二次规划。在此类问题中，目标函数是变量的二次函数，而约束条件是变量的线性不等式。

正则化可理解为一种“罚函数法”，即对不希望得到的结果施以惩罚，从而使得优化过程趋向于希望的目标。从贝叶斯角度看，正则化项可认为是提供了模型的先验概率。

判别式模型和生成式模型

假设 $x$ 表示样本， $c$ 表示类别， $P (c ∣ x)$ 表示后验概率。

给定 $x$ , 通过直接建模 $P (c ∣ x)$ 来预测 $c$ ,这样得到的是判别式模型，也可对联合概率分布 $P (x, c)$ 建模，然后再由此获得 $P (c ∣ x)$ ，这样得到的是生成式模型。

集成学习

基于算法对数据扰动的反应，对一些常用学习器分成不稳定和稳定两种。不稳定学习器：决策树、神经网络。稳定学习器：线性学习器、支持向量机、朴素贝叶斯、k-近邻学习器。

Boosting主要关注降低偏差，而Bagging主要关注降低方差。即Boosting偏重对数据的拟合效果，Bagging偏重对数据扰动的鲁棒性。

AdaBoost没有过拟合的现象：训练误差达到0以后，继续训练还能提高泛化性能，但其实如果一直训练下去，也会过拟合。

由于集成学习包含多个学习器，即便个体学习器有较好的解释性，集成仍是黑箱模型。

概率图模型

概率模型提供了一种框架，将学习任务归结于计算变量的概率分布。在概率模型中，利用已知变量推测未知变量的分布称为“推断”，其核心是如何基于可观测变量推测未知变量的条件分布。具体来说，假定所关心的变量集合为 $Y$ , 可观测变量集合为 $O$ , 其他变量的集合是 $R$ , “生成式”模型考虑联合分布 $P (Y, R ∣ O)$ ,“判别式”模型考虑条件分布 $P (Y ∣ O)$ .给定一组观测变量值，推断就是由 $P (Y, R, O)$ 或 $P (Y, R ∣ O)$ 得到条件概率分布 $P (Y ∣ O)$ 。

概率图模型（PGM）是一类用图来表达变量相关关系的概率模型。根据边的性质不同，概率图模型大致分为两类：第一类是有向无环图表示变量间的依赖关系，称为有向图模型或贝叶斯网；第二类是使用无向图表示变量间的相关关系，称为无向图模型或马尔可夫网。

若变量间存在显式的因果关系，则常用贝叶斯网；若变量间存在相关性，但难以获得显式的因果关系，则常用马尔可夫网。

隐马尔可夫模型和马尔可夫随机场都是生成式模型，而条件随机场是判别式模型。

对数损失（交叉熵损失）用于测量模型的性能（分类模型），输出是介于0~1之间的概率值。

$- (y l o g (p) + (1 - y) l o g (1 - p))$

经验风险和结构风险

sunghosts

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书零碎

离散化**离散属性连续化：**如果属性值间有“序”的关系，如身高的高和矮转成{1.0， 0.0}，三值属性高、中和低转化成{1.0，0.5， 0.0}；如果不存在序的关系，转化成 k 维向量，如西瓜、南瓜、黄瓜转成（0,0,1）（0,1,0）（1,0,0）若将无序属性连续化，则会不恰当地引入序关系，对后续处理如距离计算等造成误导，比如评估时，经常需要计算距离基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。...
复制链接

扫一扫

专栏目录