机器学习_笔记&心得
qinmiochaos
愚者千虑,必有999失
展开
-
pagerank收敛原因
迭代公式 X=(1-a) x E+axRxX其中a:衰减系数E:nx1单位向量R:nxn状态转移概率矩阵X:nx1状态矩阵,(i,1)表示网站i得票数,总票数为1展开迭代式,得到X=(1-a)E+(1-a)axRxE+(1-a)a^2 xR^2xE+...(1-a)a^(n-1)xR^(n-1)xE整理易得X= 随着n增长,常数项(1-a)x a^i原创 2015-07-28 07:59:44 · 1750 阅读 · 0 评论 -
kd树简析
一言蔽之,kd树的想法为:对于目标点A,若点B较之其他点,每个纬度都更接近A,则猜测B接近该点。kd树构造算法:方法:共n个纬度,轮次选择纬度作为划分依据(纬度1、纬度2……),重复直至训练样本用完。结果:将每个空间一分为二,重复划分。最终每个子空间附着一个点。kd树寻找1-临近:方法:将点A所划分到的空间k对应点Xk作为初始解,连接两点,以A为球心做球,寻原创 2015-08-10 14:52:28 · 577 阅读 · 0 评论 -
kd树修改:BBF简析
bbf是一个近似算法,凭借决定算法执行步数,限定了搜索次数。bbf是我在v july v博客里看到的,里面提到“算法执行至队列为空”,应该是不当的说法,若真实行至此,则完成了所有点的扫描。下面简单图示:对于任意一棵树,可以通过对节点的谓词取反,得到交换左右子树的效果,最终得到上图。红色节点为搜索路径(作为初始解),将蓝色节点加入优先队列(优先级为与点A的距离),然后原创 2015-08-10 15:02:52 · 614 阅读 · 0 评论 -
cart剪枝,罚项系数a讨论
损失函数:Ca(T)=C(T)+a|T|C(T):训练误差a|T|:罚项,树的大小《统计学习方法》一书提到,计算各节点的a阈值,当a超过某节点阈值,则选择对该节点剪枝。a= C(t)-C(Tt)/|Tt|-1可见a由届时的树计算决定首先:每次只能计算叶节点的父节点 所对应的a值???如上图,直接计算C节点的原创 2015-08-12 17:21:27 · 405 阅读 · 0 评论 -
二叉搜索树修改
如果有一个方法,每迭代一步都能从数据中选出一部分“高纯度”的特定类,那么即使每步只能分别出1%的类别,只需100步即可完成漂亮的分类规则。ID3算法、C4.5等算法使用熵作为评价标准,导致一个问题:树细分到一个样本一个节点,熵为0。为应付这个情况,通常选择固定子树数量上限等方法。相对应的,cart树直接定义为二叉树,保证了每次划分的结果是,从总体而言把不同类尽可能分原创 2015-08-12 10:18:16 · 378 阅读 · 0 评论 -
二分类——多分类:一点思考
将多分类归结为二分类,有两种简单方法:1、类A——非类A 单类别与补集分类2、类A——类B 单类别与单类别分类举个简单线性分类例子:对于左图,可使用方法1,因为类别与补集直接线性可分对于右图,每个类别都不可与其补集线性分割,但两类之间线性可分可见“两类间线性可分”这一命题弱于“类别与补集线性可分”特别地,对于未原创 2015-08-12 12:52:12 · 1530 阅读 · 0 评论 -
adaboost: 0%正确率=100%正确率
adaboost是二分类算法二分类器有个很好的性质:若sign(f)em>1/2,将分类器改为 -sign(f)即可对于adaboost,其系数能自适应em>1/2的情况子分类器Gm(x)系数 am=1/2 log((1-em)/em )为负 am对应的加权子分类器:amGm(x)取负,则该子分类器等价于em另一方面,数据集的权值更新:Wm+1,原创 2015-09-01 16:00:23 · 1283 阅读 · 0 评论