godspeedkaka
码龄11年
关注
提问 私信
  • 博客:449,236
    449,236
    总访问量
  • 387
    原创
  • 759,203
    排名
  • 90
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2014-04-11
博客简介:

GODSPEED

博客描述:
这世界从来就只有强者的奋斗史,而没有弱者的墓志铭
查看详细资料
个人成就
  • 获得90次点赞
  • 内容获得66次评论
  • 获得172次收藏
  • 代码片获得114次分享
创作历程
  • 113篇
    2016年
  • 274篇
    2015年
成就勋章
TA的专栏
  • 机器学习
    18篇
  • 程序设计竞赛
    360篇
  • 其他
    8篇
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

182人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

FP-growth算法挖掘频繁项集

概述FP-growth算法基于Apriori构建,但在完成相同任务时采用了一些不同的技术。这里的任务是将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对,即常在一块出现的元素项的集合FP树。这种做法使得算法的执行速度要快于Apriori,通常性能要好两个数量级以上。 FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对每个潜在的频繁项集都会扫描数据集判定给
原创
发布博客 2016.09.05 ·
4061 阅读 ·
1 点赞 ·
1 评论 ·
5 收藏

Apriori算法与关联分析

概述关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集(frequent item sets)或者关联规则。频繁项集是经常出现在一起的物品的集合,关联规则(association rules)暗示两种物品之间可能存在很强的关系。 一个项集的支持度(support)度被定义为在数据集中包含该项集的记录所占的比例。支持度是针对项集来说的,因此可以定义一个最小支持度,只保
原创
发布博客 2016.09.04 ·
968 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

最小角回归(Least Angle Regression)

最小角回归和其他方法的比较逐步选择(forward selection)算法(例如forward stepwise regression)在进行子集选择的时候可能会显得太具有“侵略性”(aggressive),因为每次在选择一个变量后都要重新拟和模型,比如我们第一步选择了一个变量x1x_1,在第二步中可能就会删除掉一个和x1x_1相关但也很重要的变量。 Forward Stagewise是一种比起
原创
发布博客 2016.08.18 ·
24474 阅读 ·
13 点赞 ·
2 评论 ·
59 收藏

感知机模型

首先看一个例子 上图显示IR2IR^2中两个类的20个数据点,这些数据可以被一个线性边界分隔开。前面几篇已经讲了分类的回归方法和LDA,对于这个例子, 橙色的是该问题的最小二乘法解,通过对X上的-1/1响应Y回归得到。 可以看到,这个解不能很好地解决这个问题,因为它错分了一个点。事实上,对于这个问题,LDA的解也就是最小二乘法的解(见上一篇)。上图中两条蓝色的分隔线是以不同随机初始化的感知
原创
发布博客 2016.08.15 ·
880 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

线性判别分析(Linear Discriminant Analyst)

线性判别分析LDA为了最优分类,我们要计算后验概率P(G|X)P(G|X)。设fk(x)设f_k(x)是类G=kG=k中XX的类条件密度,而πk\pi_k是类kk的先验概率,贝叶斯定理给出 P(G=k|X=x)=fk(x)πk∑Kl=1fl(x)πlP(G=k|X=x)={f_k(x)\pi_k \over \sum_{l=1}^Kf_l(x)\pi_l} 假定我们用多元高斯分布对每个类
原创
发布博客 2016.08.14 ·
10142 阅读 ·
4 点赞 ·
1 评论 ·
7 收藏

分类的线性回归方法

分类的指示矩阵回归方法考虑将每个相应类型通过一个指示变量编码,这样,如果有K个类,那么对于每一个输入,输出时一个K维向量,其中,如果G=kG=k,那么Yk=1Y_k=1,否则Yk=0Y_k=0,训练集的N个输入形成一个N*K的指示响应矩阵(indicator response matrix)Y。 我们用线性回归模型拟合Y的每一列,拟合由下式给出 Y^=X(XTX)−1XTY\hat Y=X(X^
原创
发布博客 2016.08.13 ·
2671 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

最佳子集选择,岭回归,套索的比较

套索(Lasso)Lasso也是一种收缩方法,Lasso估计的定义如下: β^lasso=argminβ∑Ni=1(yi−β0−∑pj=1xijβj)2\hat \beta^{lasso}=arg min_{\beta}\sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^px_{ij}\beta_j)^2 subject to∑pj=1|βj|<=tsubject\ to \
原创
发布博客 2016.08.10 ·
9031 阅读 ·
1 点赞 ·
0 评论 ·
17 收藏

岭回归(ridge regression)

收缩方法通过选择自变量的一个子集产生新的线性模型,这个模型是可解释的并且可能具有比完整模型更低的预测误差,然而,由于它是一个离散过程(变量或者保留,或者丢弃),使得子集选择方法常常表现出高方差,因此不能降低整个模型的预测误差。收缩方法更加连续,并且不会因为变量多而过多的降低性能岭回归(Ridge Regression)岭回归通过对系数向量的长度平方添加处罚来收缩系数。 算法极小化如下表达式: β
原创
发布博客 2016.08.04 ·
17137 阅读 ·
3 点赞 ·
1 评论 ·
18 收藏

逐步回归(step regression)和分段回归(stagewise regression)

QR分解 在ols中要计算(XTX)−1(X^TX)^{-1},可以通过矩阵分解简化计算,将X分解成QR乘积的形式,其中Q是一个N∗(p+1)N*(p+1)的正交矩阵,也就是X的列空间的一组正交基,R是一个上三角矩阵,于是,β^=(XTX)−1∗XTy=R−1Qy,y^=QQTy\hat \beta=(X^TX)^{-1}*X^Ty=R^{-1}Qy,\hat y=QQ^Ty。子集选择 有两个原
原创
发布博客 2016.08.02 ·
26182 阅读 ·
3 点赞 ·
0 评论 ·
24 收藏

线性回归模型和最小二乘法

线性回归模型和最小二乘法最小二乘法极小化残差的平方和,该准则度量平均拟合偏离。 将残差平方和写成如下形式 RSS(θ)=(y−Xβ)T(y−Xβ)RSS(\theta)=(y-X\beta)^T(y-X\beta) 这是p+1p+1个参数的二次函数。 关于β\beta微分,得到 ∂RSS∂β=−2XT(y−XTβ){\partial RSS \over \partial \beta} =
原创
发布博客 2016.07.31 ·
3062 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

EM算法与高斯混合聚类

EM算法用Y表示观测随机变量的数据,Z表示隐随机变量的数据,Y和Z连在一起成为完全数据,观测Y又称为不完全数据。假设给定观测数据Y,其概率分布是P(Y|θ)P(Y|\theta),其中θ\theta是要估计的模型参数,完全数据的对数似然函数为logP(Y,Z|θ)logP(Y,Z|\theta),EM算法通过迭代求对数似然函数的极大似然估计,每次迭代包括两步:E步,求期望;M步,求极大化。 算法步
原创
发布博客 2016.07.19 ·
1704 阅读 ·
0 点赞 ·
1 评论 ·
4 收藏

原型聚类总结

概述原型聚类是指聚类结构能通过一组原型刻画,原型是指样本空间中具有代表性的点。通常情况下,算法先对原型进行初始化,然后对原型进行迭代更新求解,下面是几种著名的原型聚类算法。K均值算法给定样本集合D,K均值算法针对聚类所得簇划分C,最小化平方误差 E=∑ki=1∑x∈Ci||x−μi||22E = \sum_{i=1}^k \sum_{x\in Ci}||x-\mu_i||_2^2 其中μi=1|
原创
发布博客 2016.07.18 ·
10161 阅读 ·
3 点赞 ·
2 评论 ·
13 收藏

提升和加法树及AdaBoost算法总结

提升方法概述一个弱分类器的误差率只比随机猜测好一些,提升的目的就是连续对反复修改的数据应用弱分类算法,由此产生一个弱分类器序列Gm(x)G_m(x),m=1,2,3...Mm=1,2,3...M,然后通过一个加权的多数表决来合并全部预测,以产生最终预测 G(x)=sign(∑Mm=1αmGm(x))G(x) = sign(\sum_{m=1}^M\alpha_mG_m(x)) 这里,αm\alp
原创
发布博客 2016.07.14 ·
3561 阅读 ·
1 点赞 ·
2 评论 ·
2 收藏

SMO算法总结

1.概述SMO(Sequentil Minimal Optimization)算法在支持向量机中用来求解对偶问题,即 min 12∑Ni=1∑Nj=1αiαjyiyjK(xi,xj)−∑Ni=1αimin\space {1\over2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha _i\alpha _ jy_iy_jK(x_i, x_j)-\sum_{i=1}^N\alph
原创
发布博客 2016.06.18 ·
10250 阅读 ·
4 点赞 ·
2 评论 ·
18 收藏

logistic回归|梯度下降|牛顿法总结

1.logistic回归模型logistic回归是用线性模型解决分类问题的算法 考虑现在有一个样本集合,样本特征有两维,要用一条直线作为这两类的分界线,如下图所示 也就是说logistic算法就是要找到这么一条直线,使得可以对样本进行分类。但是由于是分类问题,所以我们使用方差来度量模型就不合适了,这也正是logistic算法解决的问题。在这里,我们需要一个函数,可以将线性模型的预测值转换成0/1
原创
发布博客 2016.06.16 ·
10452 阅读 ·
7 点赞 ·
0 评论 ·
25 收藏

CART决策树算法总结

CART决策树算法,顾名思义可以创建分类树(classification)和回归树(regression)。1.分类树。当CART决策树算法用于创建分类树时,和ID3和C4.5有很多相似之处,但是CART采用基尼指数作为选择划分属性的依据,数据集的纯度用基尼值来度量,具体公式为 Gini(D)=1−∑Ck=1pkGini(D) = 1 - \sum_{k=1}^{C}p^k,其中pkp^k是第K类
原创
发布博客 2016.06.15 ·
7967 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

CodeForces 235B Let's Play Osu!(概率dp)

题意:给出一个ox序列,每一段连续的o的得分是o的数量的平方,现在给出每一个位置为o的概率,问得分的期望。思路:首先这道题要将每一个位置分开来看,计算他们对于总体期望的贡献才可以,如果暴力dp的话O(n2n^2)的复杂度时间无法承受。 考虑一段长度为n的连续序列o…o,总共的得分是n2,可以看成是由每个o贡献1分以及任意一对o(可以不相邻,于是共有C2nC^2_n组)贡献2分组成的,这个性质反
原创
发布博客 2016.06.15 ·
510 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ID3和C4.5决策树算法总结

决策树的算法流程主要是: 1.如果当前样本集全部为同一类别,则返回这一类标签 2.如果当前属性集为空集或者D中样本在属性集中的取值全部相同,那么采用多数表决法,返回样本数最多的类标签 3.如果不满足上面三个条件,说明当前结点还可以继续划分,这时候要选择最优的属性 4.选择完属性之后根据属性值划分样本,如果在某个取值下样本集为空,那么标记为父节点中样本最多的类,否则递归产生子节点 5.返回根
原创
发布博客 2016.06.13 ·
8756 阅读 ·
0 点赞 ·
3 评论 ·
2 收藏

CodeForces 101D Castle(树形dp)

题意:给出一棵树,每条边有一个权值,问到达所有节点的路程长度最小平均值是多少。思路:对于一个结点i,假设它有son[I]棵子树,子树中所有边长两倍是T[I],到达所有节点的距离和的最小值为 dp[I],那么可以得到状态转移方程dp[I] = sigma(dp[v]) + (son[I]-son[v1])*T[v1]+...+(son[vs])*T[vs-1]也就是说现在要给子节点规定一
原创
发布博客 2016.06.10 ·
850 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CodeForces 28c Bath Queue(概率dp)

题意:有n个人,m间浴室,每间浴室有a[I]个浴缸,每个人要洗澡的话都要排队,假如一群人进入同一个浴室,他们总倾向于使得最长的队伍最短,现在问所有队伍最长的期望。思路:概率dp。用状态dp[I][j][k]表示还剩I间浴室,还剩j个人,之前最长队伍的长度为k的期望最长队伍长度。 那么可以得到状态转移方程 dp[I][j][k] = sigma(dp[I-1][j-c][max(k, (c+a[i
原创
发布博客 2016.06.09 ·
1234 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多