西瓜书零碎

离散属性连续化: 如果属性值间有“序”的关系,如身高的高和矮转成{1.0, 0.0},三值属性高、中和低转化成{1.0,0.5, 0.0};如果不存在序的关系,转化成 k 维向量,如西瓜、南瓜、黄瓜转成(0,0,1)(0,1,0)(1,0,0)

若将无序属性连续化,则会不恰当地引入序关系,对后续处理如距离计算等造成误导,比如评估时,经常需要计算距离

最小二乘法: 基于均方误差最小化来进行模型求解的方法。

凸函数

若二阶导数在区间上非负,则称为凸函数,若二阶导数在区间上恒大于0,则称为严格凸函数

规范化是将不同变化范围的值映射到相同范围中,常见的是[0,1],此时亦称为归一化

Sigmoid函数即形似S的函数,对数几率函数是其典型代表。

对数几率回归求目标函数最优解的算法:

梯度下降法:是一种一阶优化方法,是求解无约束优化问题最简单、最经典的方法之一。只要求目标函数一阶可导,不使用高阶导数。

牛顿法:典型的二阶优化方法,使用目标函数的二阶导数,其迭代轮数远远小于梯度下降法,但在迭代中使用海森矩阵的逆矩阵,其计算复杂度相当高,在高维问题中几乎不可行。

拟牛顿法:在牛顿法基础上,寻找较低代价求得海森矩阵的近似逆矩阵

给定样本 x i = ( x i 1 ; x i 2 ; . . . ; x i n ) x_i=(x_{i1}; x_{i2};...;x_{in}) xi=(xi1;xi2;...;xin) x j = ( x j 1 ; x j 2 ; . . . ; x j n ) x_j=(x_{j1}; x_{j2};...;x_{jn}) xj=(xj1;xj2;...;xjn) ,最常用的是“闵可夫斯基距离

d i s t m k ( x i , x j ) = ( ∑ u = 1 n ∣ x i u − x j u ∣ p ) 1 p dist_{mk} (x_i, x_j) = (\sum_{u=1}^n |x_{iu} - x_{ju}|^p)^{\frac{1}{p}} distmk(xi,xj)=(u=1nxiuxjup)p1

上式也是$ x_i - x_j$ 的 $ L_p $ 范数。当p 等于1时,即 L 1 L_1 L1 范数也叫曼哈顿距离,当 p 等于2时,即 L 2 L_2 L2 范数也就欧式距离

二次规划包括凸二次规划和非凸二次规划。在此类问题中,目标函数是变量的二次函数,而约束条件是变量的线性不等式。

正则化可理解为一种“罚函数法”,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望的目标。从贝叶斯角度看,正则化项可认为是提供了模型的先验概率。

判别式模型和生成式模型

假设 x x x 表示样本, c c c 表示类别, P ( c ∣ x ) P(c|x) P(cx) 表示后验概率。

给定 x x x, 通过直接建模 P ( c ∣ x ) P(c|x) P(cx) 来预测 c c c ,这样得到的是判别式模型,也可对联合概率分布 P ( x , c ) P(x,c) P(x,c) 建模,然后再由此获得 P ( c ∣ x ) P(c|x) P(cx) ,这样得到的是生成式模型

集成学习

基于算法对数据扰动的反应,对一些常用学习器分成不稳定和稳定两种。不稳定学习器:决策树、神经网络。稳定学习器:线性学习器、支持向量机、朴素贝叶斯、k-近邻学习器。

Boosting主要关注降低偏差,而Bagging主要关注降低方差。即Boosting偏重对数据的拟合效果,Bagging偏重对数据扰动的鲁棒性。

AdaBoost没有过拟合的现象:训练误差达到0以后,继续训练还能提高泛化性能,但其实如果一直训练下去,也会过拟合。

由于集成学习包含多个学习器,即便个体学习器有较好的解释性,集成仍是黑箱模型

概率图模型

概率模型提供了一种框架,将学习任务归结于计算变量的概率分布。在概率模型中,利用已知变量推测未知变量的分布称为“推断”,其核心是如何基于可观测变量推测未知变量的条件分布。具体来说,假定所关心的变量集合为 Y Y Y, 可观测变量集合为 O O O, 其他变量的集合是 R R R, “生成式”模型考虑联合分布 P ( Y , R ∣ O ) P(Y,R|O) P(Y,RO) ,“判别式”模型考虑条件分布 P ( Y ∣ O ) P(Y|O) P(YO) .给定一组观测变量值,推断就是由 P ( Y , R , O ) P(Y,R,O) P(Y,R,O) P ( Y , R ∣ O ) P(Y,R|O) P(Y,RO) 得到条件概率分布 P ( Y ∣ O ) P(Y|O) P(YO)

概率图模型(PGM)是一类用图来表达变量相关关系的概率模型。根据边的性质不同,概率图模型大致分为两类:第一类是有向无环图表示变量间的依赖关系,称为有向图模型或贝叶斯网;第二类是使用无向图表示变量间的相关关系,称为无向图模型或马尔可夫网

若变量间存在显式的因果关系,则常用贝叶斯网;若变量间存在相关性,但难以获得显式的因果关系,则常用马尔可夫网

隐马尔可夫模型和马尔可夫随机场都是生成式模型,而条件随机场是判别式模型。

对数损失(交叉熵损失)用于测量模型的性能(分类模型),输出是介于0~1之间的概率值。

− ( y l o g ( p ) + ( 1 − y ) l o g ( 1 − p ) ) -(ylog(p)+(1-y)log(1-p)) (ylog(p)+(1y)log(1p))

经验风险和结构风险

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值