数据挖掘、机器学习
文章平均质量分 75
内cool二皮
我是好人。。。
展开
-
数据挖掘决策树——ID3
经典的ID3算法 一、ID3的介绍 ID3算法最早是由罗斯昆(J. Ross Quinlan)于1975年在悉尼大学提出的一种分类预测算法,算法的核心是“信息熵”。ID3算法通过计算每个属性的信息增益,认为信息增益高的是好属性,每次划分选取信息增益最高的属性为划分标准,重复这个过程,直至生成一个能完美分类训练样例的决策树。 ID3算法原创 2016-05-27 09:17:46 · 1448 阅读 · 0 评论 -
马尔科夫决策过程
马尔科夫决策过程 一.开篇的几句话: 今天本想及时下班,但是还想再学点东西就留下来公司了,这个内容今天(周五)晚上估计写不完,不过明天我会来公司继续写的。做题看了一集加州理工大的机器学习的教学视频,里面提到增强学习(reinforcement learning)。当我回想这个算法的原理时我已经忘记了,所以今天网上学习了再写出来。 二.马尔科夫决策树原创 2016-07-22 19:48:26 · 1568 阅读 · 0 评论 -
数据挖掘决策树——C4.5
分类决策树——C4.5 前一篇文章我介绍的是分类决策树ID3,学习过ID3的同学肯定知道它的变体——C4.5。现在我们介绍另外一个经典的决策树C4.5。在很多介绍中,C4.5被看作是数据挖掘十大算法之一。C4.5是基于ID3改进的一种算法,相比于ID3算法,改进有如下几点:1,用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的原创 2016-05-29 21:39:00 · 941 阅读 · 0 评论 -
随机梯度下降和批量梯度下降的原理和区别
在默认读者已经有一定的数学基础和算法基础的前提下,废话少说,直接上干货。1,Batch gradient descent最外层的Repeat until convergence,就是可以设置收敛条件的。下面一点代码来解释这个公式:这里设置循环100000代,在这里默认程序跑到100000代就收敛了,并且预测的和实际的之要大于0.000000001。看j循环:q[j]原创 2016-07-15 11:20:03 · 4296 阅读 · 0 评论 -
C4.5决策树——剪枝的问题
C4.5决策树——剪枝的问题 一。先说点什么 今天是周日,作为实习生在公司不加班,只想多学点什么。同时对未来也是有点迷茫,就说这么多吧。 二。切入主题1.为什么要剪枝 剪枝的目的是避免C4.5生成的决策树出现过拟合的问题,过拟合是对训练样本过拟合,出现过拟合的原因可能是因为样本数量太少等。转载 2016-07-24 16:15:48 · 10348 阅读 · 5 评论 -
奇异值分解(SVD)原理详解及推导-矩阵相关
SVD原理以及推导一。关于这篇文章的开始几句话 看过我之前写过文章的童鞋们会发现我写文章的水平很烂的,所以看官们见谅啊!SVD不仅是一个数学问题,在数学问题上主要涉及矩阵的计算,矩阵已经忘记的童鞋们最好去复习一下相关知识啊。说实话我还没怎么在实际开发中用过SVD,但是SVD以前我不会,原理和推导过程还是有意思的。 引用一句流行语——没时间解释了,快上车!!!!原创 2016-07-20 18:45:56 · 10337 阅读 · 0 评论