【算法面经】统计学习方法笔记

概率模型?

概率模型:P(Y|X)

非概率模型:Y=f(X)

泛化能力

泛化误差上限的大小

模型类型

(1)生成式:Naïve Bayes,HMM,GMM

(2)求解标注问题:CRF,HMM

评价指标

(1)分类

Recall = TP/(TP+FN)

Precision = TP/(TP+FP)

(1+β2)/Fβ = 1/P + β2/R

(2)回归:R2-score

感知机

(1)F(x) = sigmond(wx+b)

(2)Loss = 误分类点对超平面的距离之和

(3)随机选取数据点,若误分类,修改w、b,直至正确分类

(4)若线性可分,不唯一解

(5)Gram矩阵为x的内积

K近邻

  1. K=1:最近邻算法,无显式学习过程
  2. 不同距离度量下的最近邻点不同
  3. 欧氏距离:平方

曼哈顿距离:绝对值

1.

K↑:近似误差大

K↓:模型复杂度增多

2.快速实现:kd树

逻辑回归

可多分类、对数线性模型、极大似然估计求解

朴素贝叶斯模型

生成式模型、极大似然估计、条件独立假设

(1)\lambda=1:拉普拉斯平滑

(2)半朴素贝叶斯模型:超父:至于其中一个属性有相关关系

决策树

  1. 每一条路径都互斥且完备
  2. 此最有
  3. 生成:局部最优,剪枝:全局最优
  4. 熵=-ΣPlog(P)

求大:信息增益 = H(D|A)-H(D)

求大:信息增益率 = 信息增益/H(D)

求小:Gini系数 = 1-ΣP2

支持向量机

  1. Hinge-loss
  2. 目标:间隔最大化
  3. ||w||=1时,y(wx+b)为间隔

支持向量y(wx+b)=1

  1. 求解过程:对偶à引入拉格朗日松弛à求解最大最小问题
  2. 软间隔参数C越大越严格:求解近似线性可分问题
  3. 核化:求解非线性分类问题

高斯核、正定核、字符串核、多项式核

集成学习

Adaboost:加法模型、前向分步模型、指数损失函数

HMM、CRF算法

已知

求解

方法

概率计算问题

Π(模型),O(输出)

P

前向、后向、前后向

学习问题

O

Π

Baulm-welch算法

解码问题

Π,O

I(状态)

近似算法、维特比算法

参数估计

  1. 含隐变量:EM算法(GMM模型、HMM模型)
  2. 不含隐变量:极大似然估计、极大后验概率估计

补充

KKT条件成立<=>最优化问题有解

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值