机器学习(西瓜书笔记) 第3章 线性模型

第3章 线性模型

3.1 基本形式

线性模型函数公式:
f ( x ) = w 1 x 1 + w 2 x 2 + ⋯ + w d x d + b f(x)=w_1x_1+w_2x_2+\dots+w_dx_d+b f(x)=w1x1+w2x2++wdxd+b
线性模型的向量公式:
f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b

3.2 线性回归(Linear regression)

def :线性回归试图学得一个线性模型,以尽可能准确地预测真实值

公式:
f ( x i ) = w x i + b , 使 得 f ( x i ) ≃ y i f(x_i)=wx_i+b,使得f(x_i)\simeq y_i f(xi)=wxi+b,使f(xi)yi

3.3 对数几率回归

将z转化成接近0或1的y值

公式:
y = 1 1 + e − z y=\frac{1}{1+e^{-z}} y=1+ez1

3.4 线性判别分析(Linear Discriminant Analysis–LDA)

思路:给定训练样例集,设法将样例投影于一条直线上,使同类样例的投影点尽可能接近,异类样例的投影点尽可能远离;在对新样本分类时,将其投影到同样这条线上,再根据投影点位置判断样本类别。

分类:2分类LDA和多分类LDA

①.2分类LDA

LDA欲优化目标:
J = w T s b w w T s w w J=\frac{w^Ts_bw}{w^Ts_ww} J=wTswwwTsbw
其中:
w = s w − 1 ( η 0 − η 1 ) w=s_w^{-1}(\eta_0-\eta_1) w=sw1(η0η1)

s b = ( η 0 − η 1 ) ( η 0 − η 1 ) T s_b=(\eta_0-\eta_1)(\eta_0-\eta_1)^T sb=(η0η1)(η0η1)T

s w = Σ 0 + Σ 1 = ∑ x ϵ x 0 ( x − η 0 ) ( x − η 0 ) T + ∑ x ϵ X 1 ( x − η 1 ) ( x − η 1 ) T = U Σ V T s_w=\Sigma_0+\Sigma_1=\sum_{x\epsilon x_0}(x-\eta_0)(x-\eta_0)^T+\sum_{x\epsilon X_1}(x-\eta_1)(x-\eta_1)^T=U\Sigma V^T sw=Σ0+Σ1=xϵx0(xη0)(xη0)T+xϵX1(xη1)(xη1)T=UΣVT

η 0 − 表 示 第 0 类 样 本 的 均 值 向 量 \eta0 -表示第0类样本的均值向量 η00

η 1 − 表 示 第 1 类 样 本 的 均 值 向 量 \eta1 -表示第1类样本的均值向量 η11

Σ − 一 个 对 角 矩 阵 , 对 角 线 元 素 之 和 为 s w 的 奇 异 值 \Sigma-一个对角矩阵,对角线元素之和为s_w的奇异值 Σ线sw

②多分类LDA

意义:
将w视为投影矩阵,多分类LDD将样本投影到d’维空间,由于d’通常远小于原d(数据原有的属性),故可通过此方法减小样本点的维数
优化目标:
m a x x t r ( w T s b w ) t r ( w T s w w ) max_{x}\frac{tr(w^Ts_bw)}{tr(w^Ts_ww)} maxxtr(wTsww)tr(wTsbw)
广义优化目标:
s b w = λ s w w s_bw=\lambda s_ww sbw=λsww
其中:
s t = s b + s w = ∑ i = 1 m ( x i − η ) ( x i − η ) T s_t=s_b+s_w= \sum_{i=1} ^m(x_i-\eta)(x_i-\eta)^T st=sb+sw=i=1m(xiη)(xiη)T

s w i = ∑ x ∈ x i ( x − η i ) ( x − η i ) T s_{w_i}=\sum_{x\in x_i}(x-\eta_i)(x-\eta_i)^T swi=xxi(xηi)(xηi)T

s w = ∑ i = 1 N s w i s_w=\sum_{i=1}^Ns_{w{i}} sw=i=1Nswi

s b = s t − s w = ∑ i = 1 N m i ( η i − η ) ( η i − η ) T s_b=s_t-s_w=\sum_{i=1}^Nm_i(\eta_i-\eta)(\eta_i-\eta)^T sb=stsw=i=1Nmi(ηiη)(ηiη)T

W − 是 s w − 1 s b 的 d ’ 个 最 大 非 零 广 义 特 征 值 所 对 应 的 特 征 向 量 组 成 的 矩 阵 , 其 中 d ′ ≤ N − 1 W-是s_w^{-1}s_b的d^{’}个最大非零广义特征值所对应的特征向量组成的矩阵,其中d^{'}\leq N-1 Wsw1sbd广dN1

3.5 多分类学习

不清楚啥用

3.6 类别不平衡问题

1.定义:

类比额不平衡(class-imbalance)问题指分类任务中不同列别的训练样例数目差别很大的情况。例如有998个反例,但正例仅有2个,那么学习方法只需返回一个永远将新样本预测为反例的学习器,即可达到99.8%的精度,但是这个学习器没有价值,因为它不能预测出任何正例

2.策略:

再缩放(rescaling):
y ’ 1 − y ′ = y 1 − y × m − m + \frac{y^{’}}{1-y^{'}}=\frac{y}{1-y}\times\frac{m^{-}}{m^{+}} 1yy=1yy×m+m
3种再缩放的方式:

  • 欠采样(undersampling):

​ 对训练集中的反例欠采样,去除一些反例使得正反比例数目接近,然后再学习

  • 过采样(oversampling):

对训练中的正例进行过采样,增加一些正例使得正反例数目接近,然后再学习

  • 阈值移动(threshold-moving):

直接基于原始训练集进行学习,但在用测试好的分类器进行预测时,将再缩放公式嵌入到决策过程中

3.代价敏感学习:
代 价 敏 感 学 习 = y 1 − y × c o s t + c o s t − 代价敏感学习=\frac{y}{1-y}\times \frac{cost^{+}}{cost^{-}} =1yy×costcost+
其中:
c o s t + − 将 正 例 误 分 为 反 例 的 代 价 cost^{+}-将正例误分为反例的代价 cost+

c o s t − − 将 反 例 误 分 为 正 例 的 代 价 cost^{-}-将反例误分为正例的代价 cost

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值