![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
李航 - 统计学习方法
windmissing
喜欢编程,喜欢思考,方向明确
展开
-
6-2 逻辑回归 多分类逻辑回归模型
多分类逻辑回归模型假设Y的取值集合是1,2,⋯ ,K{1, 2, \cdots, K}1,2,⋯,K,则P(Y=k∣x)=exp(wk⋅x)1+∑k=1K−1exp(wk⋅x)P(Y=K)=11+∑k=1K−1exp(wk⋅x)\begin{aligned}P(Y=k|x) = \frac{\exp (w_k \cdot x)}{1+\sum_{k=1}^{K-1}exp(w_k \cd...原创 2020-04-24 19:01:13 · 617 阅读 · 0 评论 -
6-1 逻辑回归 二分类逻辑回归模型
二分类逻辑回归模型 binomail model模型P(Y=1∣x)=exp(w⋅x+b)1+exp(w⋅x+b)P(Y=0∣x)=11+exp(w⋅x+b)\begin{aligned}P(Y=1|x) = \frac{\exp (w \cdot x + b)}{1 + \exp(w \cdot x + b)} \\P(Y=0|x) = \frac{1}{1 + \exp(w ...原创 2020-04-24 19:00:03 · 607 阅读 · 0 评论 -
第6章 逻辑回归
逻辑回归 logistic regression分类算法,属于对数线性模型logistic distribution模型二分类逻辑回归模型 binomail model多分类逻辑回归模型multi-nomial model最大熵模型 maximum model【?】拉格朗日对偶问题的求解还不懂?【?】6.2.4的一些术语不懂【?】这一章不知道怎么编程...原创 2020-04-24 18:56:51 · 281 阅读 · 0 评论 -
5-7 CART树的剪枝
CART树的剪枝算法输入:剪枝前的CART树输出:剪枝后的CART树原理令:损失函数为:Ca(T)=C(T)+a∣T∣(1)C_a(T) = C(T) + a|T| \tag {1}Ca(T)=C(T)+a∣T∣(1)对树上的所有结点计算:假如该结点不split,该结点的损失为:Ca(t)=C(t)+a∣T∣(2)C_a(t) = C(t) + a|T| \tag {2}...原创 2020-04-08 19:14:39 · 352 阅读 · 0 评论 -
5-6 CART树的生成
CART树的生成算法输入:训练数据集X,样本标签y输出:回归树f(x)步骤若D中所有实例属于同一类CkC_kCk,则T为单结点树,并将类CkC_kCk作为该结点的类标记,返回T对每个特征feature的每个取值value,将y分为R1R_1R1和R2R_2R2两个集合,因为现在还不是真正的split,只是要计算split后的基尼指数,只需要用到split之后的yy1(fea...原创 2020-04-08 19:13:02 · 316 阅读 · 0 评论 -
第5章 CART决策树
CART决策树CART:Classification And Regression Tree最小二乘回归树回归树模型f(x)=∑m=1MCmI(x∈Rm)f(x) = \sum_{m=1}^{M}C_mI(x \in R_m)f(x)=m=1∑MCmI(x∈Rm)所设CART树分成了M个叶子结点,每个叶子结点对应的输出标签为CmC_mCm即:f(x)=Cm,ifx∈Rm...原创 2020-04-08 19:11:56 · 283 阅读 · 0 评论 -
5-5 决策树的剪枝算法
树的剪枝算法输入:ID3或C4.5的决策树参数a输出:剪枝后的决策树TaT_aTa递归版本从树的根结点开始如果该结点的孩子中存在子树(不全是叶子结点),则先对子树做prune所有子树都prune之后,再判断该结点的孩子是否都是叶子如果不全是叶子,对该结点的算法结束如果该结点的孩子都是叶子,则尝试对该结点剪枝5.a 计算Ca(TB)C_a(T_B)Ca(TB),代表该...原创 2020-04-08 19:10:24 · 353 阅读 · 0 评论 -
5-4 决策树 C4.5决策树的生成算法
C4.5的生成算法C4.5算法对ID3做了改进,使用信息增益比来选择特征信息增益比计算公式:gR(D,A)=g(D,A)H(D)g_R(D, A) = \frac{g(D, A)}{H(D)}gR(D,A)=H(D)g(D,A)输入训练数据集D特征集A阈值ϵ\epsilonϵ输出决策树T过程过程与ID3决策树的生成算法完全相同。除了在第3步中使用信息增益比来选择特征...原创 2020-03-22 17:03:13 · 493 阅读 · 0 评论 -
5-3 决策树 ID3决策树的生成算法
ID3算法在决策树各个结点上应该信息增益准则选择特征,递归地构建决策树输入训练数据集D特征集A阈值ϵ\epsilonϵ输出决策树T过程若D中所有实例属于同一类CkC_kCk,则T为单结点树,并将类,则T为单结点树,并将类,则T为单结点树,并将类CkC_kCk作为该结点的类标记,返回T若A=∅A=\emptysetA=∅,则T为单结点,并将D中实例数最大的类CkC_kCk...原创 2020-03-22 17:02:11 · 615 阅读 · 0 评论 -
5-2 决策树 信息增益的算法
信息增益的算法输入:训练数据集D和特征A输出:特征A对训练数据集D的信息增益g(D,A)定义:K:样本标签有K种分类CkC_kCk:样本标签为k的样本数m:样本总数DiD_iDi:样本中第A个特征为:样本中第A个特征为:样本中第A个特征为aia_iai的样本数DikD_{ik}Dik:样本中第A个特征为:样本中第A个特征为:样本中第A个特征为aia_iai且其标签分类为k...原创 2020-03-22 16:58:49 · 549 阅读 · 0 评论 -
5-1 决策树的模型
决策树的模型特征的选择决定用哪个特征来划分特征空间。通过信息增益选取对训练数据具有分类能力的特征。熵信息增益g(D,A)定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即g(D,A)=H(D)−H(D∣A)g(D, A) = H(D) - H(D|A)g(D,A)=H(D)−H(D∣A)信息熵增益准则的特征选择方法:对训练数据集(或子集)D,计算其每...原创 2020-03-22 16:57:05 · 264 阅读 · 0 评论 -
第5章 决策树
决策树可用于分类或回归问题优点:模型具有可读性,分类速度快模型包括3个步骤:特征选择、决策树的生成、决策树的剪枝策略损失函数:正则化的极大似然函数。策略:最小化损失函数算法ID3、C4.5、CARTCART:classification and regression tree...原创 2020-03-15 16:51:11 · 243 阅读 · 0 评论 -
4-4 朴素贝叶斯 贝叶斯估计算法过程
贝叶斯估计是最大似然估计的改进。在最大似然估计算法中计算得到的先验概率、条件概率都有可能是0,这会导致最终得到的后验概率没有意义。贝叶斯估计在最大似然估计的分子分母中同时添加了系数lamda,防止出现计算结果为0的情况。def NaiveteBayes(T, y, a, Y, x, lam=0): # 计算先验概率 prepro = {} for yRange in ...原创 2020-03-15 16:50:33 · 824 阅读 · 0 评论 -
4-3 朴素贝叶斯 最大似然估计算法过程
朴素贝叶斯算法输入:样本数据T,包含m个n维特征的样本。aij为每个样本特征的第i个特征可取到的第j个值。测试样本x输出:对x的预测分类。计算先验概率Pk(Y=Ck)=∑I(y=Ck)mP_k(Y=C_k) = \frac {\sum I(y=C_k)}{m}Pk(Y=Ck)=m∑I(y=Ck)计算每个特征每个取值的条件概率PijkP_{ijk}Pijk为当为当为...原创 2020-03-15 16:49:46 · 614 阅读 · 0 评论 -
4-2 朴素贝叶斯 策略公式的推导
朴素贝叶斯模型使用0-1损失函数来选择最优模型0-1损失函数定义如下:L(Y,f(X))={1,Y=f(X)0,Y≠f(X)L(Y, f(X)) = \begin{cases}1, && Y = f(X) \\0, && Y \neq f(X)\end{cases}L(Y,f(X))={1,0,Y=f(X)Y=f(X)L(Y, f(X))的...原创 2020-03-15 16:47:59 · 438 阅读 · 0 评论 -
第4章 朴素贝叶斯
朴素贝叶斯分类算法、生成算法假设用于分类的特征在类确定的条件都是条件独立的。模型P(Y=Ck∣X=x)=P(Y=Ck)∏jP(X(j)=x(j)∣y=Ck)∑kP(Y=Ck)∏jP(X(j)=x(j)∣y=Ck),k=1,2,⋯ ,KP(Y=C_k|X=x) = \frac {P(Y=C_k)\prod_jP(X^{(j)}=x^{(j)}|y=C_k)}{\sum_k P(Y=C_k)...原创 2020-03-09 08:41:07 · 185 阅读 · 0 评论 -
4-1 朴素贝叶斯 模型公式的推导
假设A和B是两个事件,根据贝叶斯公式:P(A∣B)∗P(B)=P(A,B)=P(B∣A)P(A)P(A|B) * P(B) = P(A, B) = P(B|A)P(A)P(A∣B)∗P(B)=P(A,B)=P(B∣A)P(A)又假如在这两个事件中,我们关注的是事件A,那么称:P(A)为先验概率,即A发生的概率P(B|A)为条件概率P(A|B)为后验概率根据先验概率和条件概率求后验概...原创 2020-03-09 08:39:53 · 350 阅读 · 0 评论 -
3-4 k近邻算法 kd树的原理与改进
构造KD树的构造过程实际上是用许多与坐标轴平行的分割线按照一定规划将一个空间划分成多个子空间。其中,每个分割线都经过一个样本点,每个区域有一个样本点。将上图这样的划分转换成的kd树是:其中,圆形结点代表分割线上的样本,方形结点代表区域中的样本。可以发现,方形结点所在的区域是由它的路径上的圆形结点所在的分割线分割出来的。例如:D所在的区域是经过A、B所在的分割线切割得到的。E所在...原创 2020-03-09 08:37:41 · 764 阅读 · 0 评论 -
3-3 k近邻算法 用kd树的k近邻搜索
算法:用kd树的k近邻搜索输出:已构造的kd树目标点x输出:x的最近邻在kd树中找出包含目标点x的叶结点:从根结点出发,递归地向下访问kd树。若目标点x当前维的坐标小于切分点的坐标,则移动到左子节点,否则移动到右子节点。直至子结点为叶结点为止。以此结点为当前最近点递归地向上回退,在每个结点进行以下操作:a) 如果该结点保存的实例点比当前最近点距离目标点更近,则以该实例点为“当前最...原创 2020-03-09 08:35:02 · 583 阅读 · 0 评论 -
3-2 k近邻算法 构造平衡kd树
算法:构造平衡kd树输入:数据集T,T包含m个n维的数据输出:kd树第一步:构造根结点第二步:重复划分令当前结点的深度为depth,计算:feature = depth % nvalue = T[:, feature]的下中位数。选择在第feature个特征上基于value将数据划分成2份。第三步:结束区域中没有实例时停止。# 计算下中位数def getDownMedian...原创 2020-03-03 21:30:49 · 622 阅读 · 0 评论 -
3-1 k近邻算法 模型三要素
距离度量:欧式距离、LP距离k值的选择:k=1,方差(variance)大,估计误差(estimation error)大,过拟合(overfitting),模型复杂,对邻近的实例点非常敏感。k=M(样本数),偏差(Bias)大,近似误差(approximation error)大,欠拟合(underfitting),离输入实例较远的训练实例也会对预测起作用。通常使用交叉验证来选取最优的...原创 2020-03-03 21:29:34 · 1861 阅读 · 0 评论 -
第3章 k近邻算法
K近邻算法KNN,k-nearest neighbor给定一个训练数据集,对新的输入实例,在训练数据集找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。分类算法,也可以作回归算法模型模型由三个基本要素 — 距离度量、k值的选择、分类决策规则当距离度量、k值的选择、分类决策规则确定后,其分类结果唯一确定。算法kd树。kd树是一种便于对k维空间中的数...原创 2020-03-03 21:27:49 · 266 阅读 · 0 评论 -
2-7 感知机对偶形式 梯度下降法的推导过程
在感知机的原始形式中,模型为:f(x)=sign(w⋅x+b)sign(x)={+1,x≥0−1,x<0(1)f(x) = sign(w \cdot x + b) \\sign(x) = \begin{cases} +1, && x \ge 0 \\ -1, && x \lt 0 \end{cases} \tag {1}f(x)=sign(...原创 2020-03-03 21:26:37 · 757 阅读 · 2 评论 -
2-6 感知机 - 对偶形式 - 梯度下降法的算法过程
输入:训练数据集T=(x1,y1),(x1,y1),⋯ ,(xn,yn)T={(x_1, y_1), (x_1, y_1), \cdots, (x_n, y_n)}T=(x1,y1),(x1,y1),⋯,(xn,yn),其中xi∈Rnyi∈y=−1,+1,i=1,2,⋯ ,nx_i \in R^n \\y_i \in y = {-1, +1}, \\i = 1, 2, \cd...原创 2020-02-25 21:36:58 · 484 阅读 · 0 评论 -
2-5 感知机 - 对偶形式 - 学习模型的推导
感知机对偶形式由感知机原始形式变化而来。在原始形式中,感知机的模型为:f(x)=sign(w⋅x+b)sign(x)={+1,x≥0−1,x<0(1)f(x) = sign(w \cdot x + b) \\sign(x) = \begin{cases} +1, && x \ge 0 \\ -1, && x \lt 0 \end{cases...原创 2020-02-25 21:35:16 · 491 阅读 · 0 评论 -
第2章 感知机 - 对偶形式
感知机 - 对偶形式对偶形式的基本思想:将w和b表示为样本(书中术语为实例)xix_ixi和标记和标记和标记yiy_iyi的线性组合形式,通过求解其系数而求得w和b但变形之后的感知机就从参数学习算法变成了非参数学习算法。因为它的算法模型中还要用到训练数据集X和y模型f(x)=sign(∑j=1majyjxj⋅x+b)sign(x)={+1,x≥0−1,x<0f(x) = si...原创 2020-02-25 21:31:03 · 374 阅读 · 0 评论 -
2-4 梯度下降法的收敛证明
证明:经过有限次迭代,可以得到一个将线性可分的训练数据集完全正确划分的分离超平面及感知机模型当训练数据集线性不可分时,算法不收敛假设前提:所有训练数据点都线性可分的初值(w0,b0)=0⃗(w_0, b_0) = \vec{0}(w0,b0)=0证明前的一些定义(1)令w^=(wT,b)T 向量一般默认为列向量x^=(...原创 2020-02-25 21:28:40 · 581 阅读 · 0 评论 -
2-3 感知机梯度下降法的推导过程
感知机的损失函数:L(w,b)=−∑xi∈Myi(w⋅xi+b)(1)L(w, b) = - \sum_{x_i \in M}y_i (w \cdot x_i + b) \tag {1}L(w,b)=−xi∈M∑yi(w⋅xi+b)(1)目标是最小化这个损失函数。使用梯度下降法求出L(w,b)L(w,b)L(w,b)$的偏导,使w,b向导数的负方向移动。{∇wL(w,b)=−...原创 2020-02-14 16:05:02 · 471 阅读 · 0 评论 -
2-2 感知机梯度下降法的算法过程
输入:训练数据集T=(x1,y1),(x1,y1),⋯ ,(xn,yn)T={(x_1, y_1), (x_1, y_1), \cdots, (x_n, y_n)}T=(x1,y1),(x1,y1),⋯,(xn,yn)$,其中xi∈Rnyi∈y=−1,+1,i=1,2,⋯ ,nx_i \in R^n \\y_i \in y = {-1, +1}, \\i = 1, 2, \c...原创 2020-02-14 16:03:29 · 453 阅读 · 0 评论 -
2-1 感知机原始形式 学习策略的推导
策略是指按照什么样的准则学习或者选择最优的模型。感知机是判别模型,它通过学习得到一个超平面,这个超平面将样本分为正负两类。使用的策略为:使误分类的点到超平面的距离之和最小令M为误分类的点的集合,则损失函数为:L(w,b)=∑xi∈Mdis(xi)(1)L(w, b) = \sum_{x_i \in M}dis(x_i) \tag {1}L(w,b)=xi∈M∑dis(xi)(1...原创 2020-02-14 15:58:35 · 323 阅读 · 0 评论 -
第2章 感知机 - 原始形式
感知机 perceptron算法类型二分类算法、线性分类模型、判别模型、监督学习算法模型模型是指所要学习的条件概率分布或者决策函数f(x)=sign(w⋅x+b)sign(x)={+1,x≥0−1,x<0f(x) = sign(w \cdot x + b) \\sign(x) = \begin{cases} +1, && x \ge 0 \\ -1, ...原创 2020-02-14 15:53:39 · 196 阅读 · 0 评论