![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 76
godspeedkaka
这个作者很懒,什么都没留下…
展开
-
K-近邻算法总结
k近邻学习是一种常见的监督学习方法,工作机制是给定测试样本,基于某种距离度量找出训练集中与其最近的k个训练样本,然后根据投票法确定测试样本的类别,k紧邻法是懒惰学习的著名代表。当k=1时,假设给定样本是xx,它的最近的邻居是zz,则此时出错的概率为xx与zz标记不同的概率,不超过贝叶斯最优分类器的错误率的两倍K近邻算法主要有以下特点 优点:精度高,对异常值不敏感,无输入数据嘉定,没有训练过程 缺原创 2016-06-08 21:40:00 · 736 阅读 · 0 评论 -
FP-growth算法挖掘频繁项集
概述FP-growth算法基于Apriori构建,但在完成相同任务时采用了一些不同的技术。这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对,即常在一块出现的元素项的集合FP树。这种做法使得算法的执行速度要快于Apriori,通常性能要好两个数量级以上。 FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对每个潜在的频繁项集都会扫描数据集判定给原创 2016-09-05 20:14:16 · 3984 阅读 · 1 评论 -
分类的线性回归方法
分类的指示矩阵回归方法考虑将每个相应类型通过一个指示变量编码,这样,如果有K个类,那么对于每一个输入,输出时一个K维向量,其中,如果G=kG=k,那么Yk=1Y_k=1,否则Yk=0Y_k=0,训练集的N个输入形成一个N*K的指示响应矩阵(indicator response matrix)Y。 我们用线性回归模型拟合Y的每一列,拟合由下式给出 Y^=X(XTX)−1XTY\hat Y=X(X^原创 2016-08-13 15:07:02 · 2628 阅读 · 0 评论 -
Apriori算法与关联分析
概述关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集(frequent item sets)或者关联规则。频繁项集是经常出现在一起的物品的集合,关联规则(association rules)暗示两种物品之间可能存在很强的关系。 一个项集的支持度(support)度被定义为在数据集中包含该项集的记录所占的比例。支持度是针对项集来说的,因此可以定义一个最小支持度,只保原创 2016-09-04 00:14:39 · 930 阅读 · 0 评论 -
最佳子集选择,岭回归,套索的比较
套索(Lasso)Lasso也是一种收缩方法,Lasso估计的定义如下: β^lasso=argminβ∑Ni=1(yi−β0−∑pj=1xijβj)2\hat \beta^{lasso}=arg min_{\beta}\sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^px_{ij}\beta_j)^2 subject to∑pj=1|βj|<=tsubject\ to \原创 2016-08-10 21:00:38 · 8953 阅读 · 0 评论 -
最小角回归(Least Angle Regression)
最小角回归和其他方法的比较逐步选择(forward selection)算法(例如forward stepwise regression)在进行子集选择的时候可能会显得太具有“侵略性”(aggressive),因为每次在选择一个变量后都要重新拟和模型,比如我们第一步选择了一个变量x1x_1,在第二步中可能就会删除掉一个和x1x_1相关但也很重要的变量。 Forward Stagewise是一种比起原创 2016-08-18 14:44:36 · 24338 阅读 · 2 评论 -
逐步回归(step regression)和分段回归(stagewise regression)
QR分解 在ols中要计算(XTX)−1(X^TX)^{-1},可以通过矩阵分解简化计算,将X分解成QR乘积的形式,其中Q是一个N∗(p+1)N*(p+1)的正交矩阵,也就是X的列空间的一组正交基,R是一个上三角矩阵,于是,β^=(XTX)−1∗XTy=R−1Qy,y^=QQTy\hat \beta=(X^TX)^{-1}*X^Ty=R^{-1}Qy,\hat y=QQ^Ty。子集选择 有两个原原创 2016-08-02 21:23:12 · 25979 阅读 · 0 评论 -
线性回归模型和最小二乘法
线性回归模型和最小二乘法最小二乘法极小化残差的平方和,该准则度量平均拟合偏离。 将残差平方和写成如下形式 RSS(θ)=(y−Xβ)T(y−Xβ)RSS(\theta)=(y-X\beta)^T(y-X\beta) 这是p+1p+1个参数的二次函数。 关于β\beta微分,得到 ∂RSS∂β=−2XT(y−XTβ){\partial RSS \over \partial \beta} =原创 2016-07-31 22:58:06 · 2982 阅读 · 0 评论 -
岭回归(ridge regression)
收缩方法通过选择自变量的一个子集产生新的线性模型,这个模型是可解释的并且可能具有比完整模型更低的预测误差,然而,由于它是一个离散过程(变量或者保留,或者丢弃),使得子集选择方法常常表现出高方差,因此不能降低整个模型的预测误差。收缩方法更加连续,并且不会因为变量多而过多的降低性能岭回归(Ridge Regression)岭回归通过对系数向量的长度平方添加处罚来收缩系数。 算法极小化如下表达式: β原创 2016-08-04 20:17:46 · 17019 阅读 · 1 评论 -
感知机模型
首先看一个例子 上图显示IR2IR^2中两个类的20个数据点,这些数据可以被一个线性边界分隔开。前面几篇已经讲了分类的回归方法和LDA,对于这个例子, 橙色的是该问题的最小二乘法解,通过对X上的-1/1响应Y回归得到。 可以看到,这个解不能很好地解决这个问题,因为它错分了一个点。事实上,对于这个问题,LDA的解也就是最小二乘法的解(见上一篇)。上图中两条蓝色的分隔线是以不同随机初始化的感知原创 2016-08-15 22:27:36 · 857 阅读 · 0 评论 -
EM算法与高斯混合聚类
EM算法用Y表示观测随机变量的数据,Z表示隐随机变量的数据,Y和Z连在一起成为完全数据,观测Y又称为不完全数据。假设给定观测数据Y,其概率分布是P(Y|θ)P(Y|\theta),其中θ\theta是要估计的模型参数,完全数据的对数似然函数为logP(Y,Z|θ)logP(Y,Z|\theta),EM算法通过迭代求对数似然函数的极大似然估计,每次迭代包括两步:E步,求期望;M步,求极大化。 算法步原创 2016-07-19 18:50:21 · 1679 阅读 · 1 评论 -
原型聚类总结
概述原型聚类是指聚类结构能通过一组原型刻画,原型是指样本空间中具有代表性的点。通常情况下,算法先对原型进行初始化,然后对原型进行迭代更新求解,下面是几种著名的原型聚类算法。K均值算法给定样本集合D,K均值算法针对聚类所得簇划分C,最小化平方误差 E=∑ki=1∑x∈Ci||x−μi||22E = \sum_{i=1}^k \sum_{x\in Ci}||x-\mu_i||_2^2 其中μi=1|原创 2016-07-18 20:07:08 · 10067 阅读 · 2 评论 -
SMO算法总结
1.概述SMO(Sequentil Minimal Optimization)算法在支持向量机中用来求解对偶问题,即 min 12∑Ni=1∑Nj=1αiαjyiyjK(xi,xj)−∑Ni=1αimin\space {1\over2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha _i\alpha _ jy_iy_jK(x_i, x_j)-\sum_{i=1}^N\alph原创 2016-06-18 20:44:38 · 10152 阅读 · 2 评论 -
提升和加法树及AdaBoost算法总结
提升方法概述一个弱分类器的误差率只比随机猜测好一些,提升的目的就是连续对反复修改的数据应用弱分类算法,由此产生一个弱分类器序列Gm(x)G_m(x),m=1,2,3...Mm=1,2,3...M,然后通过一个加权的多数表决来合并全部预测,以产生最终预测 G(x)=sign(∑Mm=1αmGm(x))G(x) = sign(\sum_{m=1}^M\alpha_mG_m(x)) 这里,αm\alp原创 2016-07-14 19:54:17 · 3540 阅读 · 2 评论 -
logistic回归|梯度下降|牛顿法总结
1.logistic回归模型logistic回归是用线性模型解决分类问题的算法 考虑现在有一个样本集合,样本特征有两维,要用一条直线作为这两类的分界线,如下图所示 也就是说logistic算法就是要找到这么一条直线,使得可以对样本进行分类。但是由于是分类问题,所以我们使用方差来度量模型就不合适了,这也正是logistic算法解决的问题。在这里,我们需要一个函数,可以将线性模型的预测值转换成0/1原创 2016-06-16 11:17:44 · 10390 阅读 · 0 评论 -
ID3和C4.5决策树算法总结
决策树的算法流程主要是: 1.如果当前样本集全部为同一类别,则返回这一类标签 2.如果当前属性集为空集或者D中样本在属性集中的取值全部相同,那么采用多数表决法,返回样本数最多的类标签 3.如果不满足上面三个条件,说明当前结点还可以继续划分,这时候要选择最优的属性 4.选择完属性之后根据属性值划分样本,如果在某个取值下样本集为空,那么标记为父节点中样本最多的类,否则递归产生子节点 5.返回根原创 2016-06-13 12:32:50 · 8726 阅读 · 3 评论 -
CART决策树算法总结
CART决策树算法,顾名思义可以创建分类树(classification)和回归树(regression)。1.分类树。当CART决策树算法用于创建分类树时,和ID3和C4.5有很多相似之处,但是CART采用基尼指数作为选择划分属性的依据,数据集的纯度用基尼值来度量,具体公式为 Gini(D)=1−∑Ck=1pkGini(D) = 1 - \sum_{k=1}^{C}p^k,其中pkp^k是第K类原创 2016-06-15 13:55:27 · 7927 阅读 · 0 评论 -
线性判别分析(Linear Discriminant Analyst)
线性判别分析LDA为了最优分类,我们要计算后验概率P(G|X)P(G|X)。设fk(x)设f_k(x)是类G=kG=k中XX的类条件密度,而πk\pi_k是类kk的先验概率,贝叶斯定理给出 P(G=k|X=x)=fk(x)πk∑Kl=1fl(x)πlP(G=k|X=x)={f_k(x)\pi_k \over \sum_{l=1}^Kf_l(x)\pi_l} 假定我们用多元高斯分布对每个类原创 2016-08-14 21:18:28 · 10068 阅读 · 1 评论