机器学习
文章平均质量分 90
Android路上的人
开源社区爱好者, Apache Hadoop PMC & Apache Ozone PMC, 专注于分布式存储领域, 大数据方面的研究
展开
-
FP-Tree频繁模式树算法
参考资料:http://blog.csdn.net/sealyao/article/details/6460578更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm介绍FP-Tree算法全称是FrequentPattern Tree算法,就是频繁模式树算法,他与Apriori算法一样也是用来挖掘频繁项集的,不过不同的是,FP原创 2015-01-28 18:21:46 · 13092 阅读 · 5 评论 -
GSP序列模式分析算法
参考资料:http://blog.csdn.net/zone_programming/article/details/42032309更多数据挖掘代码:https://github.com/linyiqun/DataMiningAlgorithm介绍GSP算法是序列模式挖掘算法的一种,他是一种类Apriori的一种,整个过程与Apriori算法比较类似,不过在细节上会略有不同,在下原创 2015-02-10 09:12:01 · 14436 阅读 · 1 评论 -
基于连通图的分裂聚类算法
参考文献:基于连通图动态分裂的聚类算法.作者:邓健爽 郑启伦 彭宏 邓维维(华南理工大学计算机科学与工程学院,广东广州510640)我的算法库:https://github.com/linyiqun/lyq-algorithms-lib 算法介绍从文章的标题可以看出,今天我所介绍的算法又是一个聚类算法,不过他比较特殊,用到了图方面的知识,而且是一种动态的算法,与BIRCH算法一样,他也原创 2015-03-19 20:22:51 · 6135 阅读 · 0 评论 -
dbscan基于密度的空间聚类算法
参考文献:百度百科 http://baike.baidu.com算法介绍说到聚类算法,大家如果有看过我写的一些关于机器学习的算法文章,一定都这类算法不会陌生,之前将的是划分算法(K均值算法)和层次聚类算法(BIRCH算法),各有优缺点和好坏。本文所述的算法是另外一类的聚类算法,他能够克服BIRCH算法对于形状的限制,因为BIRCH算法偏向于聚簇球形的聚类形成,而dbscan采用的是基于空间原创 2015-03-16 20:24:44 · 7762 阅读 · 1 评论 -
遗传算法在走迷宫游戏中的应用
前言遗传(GA)算法是一个非常有意思的算法,因为他利用了生物进化理论的知识进行问题的求解。算法的核心就是把拥有更好环境适应度的基因遗传给下一代,这就是其中的关键的选择操作,遗传算法整体的阶段分为选择,交叉和变异操作,选择操作和变异操作在其中又是比较重要的步骤。本篇文章不会讲述GA算法的具体细节,之前我曾经写过一篇专门的文章介绍过此算法,链接:http://blog.csdn.net/andro原创 2015-03-26 21:56:15 · 6371 阅读 · 11 评论 -
随机森林和GBDT的学习
参考文献:http://www.zilhua.com/629.htmlhttp://www.tuicool.com/articles/JvMJvehttp://blog.sina.com.cn/s/blog_573085f70101ivj5.html我的数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm我的算法库:https原创 2015-03-30 20:28:53 · 8164 阅读 · 3 评论 -
Chameleon两阶段聚类算法
参考文献:http://www.cnblogs.com/zhangchaoyang/articles/2182752.html(用了很多的图和思想)博客园(华夏35度) 作者:Orisun数据挖掘算法-Chameleon算法.百度文库我的算法库:https://github.com/linyiqun/lyq-algorithms-lib(里面可能有你正想要的算法)算法介绍本篇文原创 2015-03-23 20:43:37 · 14775 阅读 · 4 评论 -
从Apriori到MS-Apriori算法
前言最近的几个月一直在研究和学习各种经典的DM,机器学习的相关算法,收获还是挺多的,另外还整了一个DM算法库,集成了很多数据挖掘算法,放在了我的github上,博友的热度超出我的想象,有很多人给我点了star,在此感谢各大博友们,我将会继续更新我的DM算法库。也许这些算法还不能直接拿来用,但是可以给你提供思路,或变变数据的输入格式就能用了。好,扯得有点远了,现在说正题,本篇文章重新回到讲述Ap原创 2015-04-16 22:42:53 · 4869 阅读 · 0 评论 -
多维空间分割树--KD树
算法介绍KD树的全称为k-Dimension Tree的简称,是一种分割K维空间的数据结构,主要应用于关键信息的搜索。为什么说是K维的呢,因为这时候的空间不仅仅是2维度的,他可能是3维,4维度的或者是更多。我们举个例子,如果是二维的空间,对于其中的空间进行分割的就是一条条的分割线,比如说下面这个样子。如果是3维的呢,那么分割的媒介就是一个平面了,下面是3维空间的分割这就原创 2015-04-10 21:39:58 · 7822 阅读 · 1 评论 -
ACO蚁群算法解决TSP旅行商问题
前言蚁群算法也是一种利用了大自然规律的启发式算法,与之前学习过的GA遗传算法类似,遗传算法是用了生物进行理论,把更具适应性的基因传给下一代,最后就能得到一个最优解,常常用来寻找问题的最优解。当然,本篇文章不会主讲GA算法的,想要了解的同学可以查看,我的遗传算法学习和遗传算法在走迷宫中的应用。话题重新回到蚁群算法,蚁群算法是一个利用了蚂蚁寻找食物的原理。不知道小时候有没有发现,当一个蚂蚁发现了地原创 2015-04-30 15:31:45 · 15502 阅读 · 3 评论 -
网络新闻评论观点挖掘系统实现
前言网络新闻观点挖掘系统事实上本质是属于文本数据挖掘范畴的,对于文本挖掘的方式,在早期主要是基于Web文本挖掘领域的。当然这个挖掘的尺度是可以控制的,粗粒度的挖掘相对于细粒度的挖掘要简单不少,粗粒度挖掘可以快速的多数网民们对某新闻的观点倾向,这也是我毕设作品所需要达到的目标。系统设计目标平时做了许多挖掘算法的研究,一直懒得去做一些能智能分析化的工具,恰好这次可以利用毕业设计的机会,做一原创 2015-05-31 21:06:31 · 5036 阅读 · 3 评论 -
初识贝叶斯网络
前言一看到贝叶斯网络,马上让人联想到的是5个字,朴素贝叶斯,在所难免,NaiveByes的知名度确实会被贝叶斯网络算法更高一点。其实不管是朴素贝叶斯算法,还是今天我打算讲述的贝叶斯网络算法也罢,归根结底来说都是贝叶斯系列分类算法,他的核心思想就是基于概率学的知识进行分类判断,至于分类得到底准不准,大家尽可以自己用数据集去测试测试。OK,下面进入正题--贝叶斯网络算法。朴素贝叶斯一般我在原创 2015-06-29 16:38:45 · 7630 阅读 · 1 评论 -
再学贝叶斯网络--TAN树型朴素贝叶斯算法
前言在前面的时间里已经学习过了NB朴素贝叶斯算法, 又刚刚初步的学习了贝叶斯网络的一些基本概念和常用的计算方法。于是就有了上篇初识贝叶斯网络的文章,由于本人最近一直在研究学习>,也接触到了许多与贝叶斯网络相关的知识,可以说朴素贝叶斯算法这些只是我们所了解贝叶斯知识的很小的一部分。今天我要总结的学习成果就是基于NB算法的,叫做Tree Augmented Naive Bays,中文意思就是树型朴素贝原创 2015-07-05 15:18:09 · 10861 阅读 · 1 评论 -
余弦定理实现新闻自动分类算法
前言余弦定理,这个在初中课本中就出现过的公式,恐怕没有人不知道的吧。但是另外一个概念,可能不是很多的人会听说过,他叫空间向量,一般用e表示,高中课本中有专门讲过这个东西,有了余弦定理和向量空间,我们就可以做许多有意思的事情了,利用余弦定理计算文本相似度的算法就是其中一个很典型的例子。当然这个话题太老,说的人太多,没有什么新意,恰巧周末阅读了吴军博士的>这门书,书中讲到了利用余弦定理实现新闻分类,于原创 2015-07-27 21:53:33 · 6660 阅读 · 0 评论 -
CBA算法---基于关联规则进行分类的算法
更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm介绍CBA算法全称是Classification base of Association,就是基于关联规则进行分类的算法,说到关联规则,我们就会想到Apriori和FP-Tree算法都是关联规则挖掘算法,而CBA算法正是利用了Apriori挖掘出的关联规则,然后做分类判断,所以在原创 2015-02-14 19:02:02 · 11613 阅读 · 5 评论 -
18大经典数据挖掘算法小结
本文所有涉及到的数据挖掘代码的都放在了我的github上了:https://github.com/linyiqun/DataMiningAlgorithm大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希原创 2015-02-27 10:04:01 · 19077 阅读 · 17 评论 -
PrefixSpan序列模式挖掘算法
更多数据挖掘代码:https://github.com/linyiqun/DataMiningAlgorithm介绍与GSP一样,PrefixSpan算法也是序列模式分析算法的一种,不过与前者不同的是PrefixSpan算法不产生任何的侯选集,在这点上可以说已经比GSP好很多了。PrefixSpan算法可以挖掘出满足阈值的所有序列模式,可以说是非常经典的算法。序列的格式就是上文中提到过的类原创 2015-02-12 19:06:27 · 22458 阅读 · 10 评论 -
链接挖掘算法之PageRank算法和HITS算法
参考资料:http://blog.csdn.net/hguisu/article/details/7996185更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm链接分析在链接分析中有2个经典的算法,1个是PageRank算法,还有1个是HITS算法,说白了,都是做链接分析的。具体是怎么做呢,继续往下看。PageRank原创 2015-01-30 20:16:04 · 15133 阅读 · 4 评论 -
K-Means聚类算法
更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm算法介绍K-Means又名为K均值算法,他是一个聚类算法,这里的K就是聚簇中心的个数,代表数据中存在多少数据簇。K-Means在聚类算法中算是非常简单的一个算法了。有点类似于KNN算法,都用到了距离矢量度量,用欧式距离作为小分类的标准。算法步骤(1)、设定数字k,从n个初原创 2015-02-01 18:26:15 · 8811 阅读 · 0 评论 -
决策分类树算法之ID3,C4.5算法系列
一、引言在最开始的时候,我本来准备学习的是C4.5算法,后来发现C4.5算法的核心还是ID3算法,所以又辗转回到学习ID3算法了,因为C4.5是他的一个改进。至于是什么改进,在后面的描述中我会提到。二、ID3算法ID3算法是一种分类决策树算法。他通过一系列的规则,将数据最后分类成决策树的形式。分类的根据是用到了熵这个概念。熵在物理这门学科中就已经出现过,表示是一个物质的稳定度,在这里就原创 2015-01-04 18:19:14 · 34365 阅读 · 16 评论 -
CART分类回归树算法
CART分类回归树算法与上次文章中提到的ID3算法和C4.5算法类似,CART算法也是一种决策树分类算法。CART分类回归树算法的本质也是对数据进行分类的,最终数据的表现形式也是以树形的模式展现的,与ID3,C4.5算法不同的是,他的分类标准所采用的算法不同了。下面列出了其中的一些不同之处:1、CART最后形成的树是一个二叉树,每个节点会分成2个节点,左孩子节点和右孩子节点,而在ID3和C原创 2015-01-09 18:37:27 · 17412 阅读 · 7 评论 -
朴素贝叶斯分类算法
参考资料地址: http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html我的数据挖掘算法实现源码地址:https://github.com/linyiqun/DataMiningAlgorithm介绍要介绍朴素贝叶斯算法(Naive Bayes),那就得先介绍贝叶斯分类算法,贝叶斯分原创 2015-01-13 18:40:00 · 21194 阅读 · 9 评论 -
K-最近邻算法
介绍KNN算法全名为k-Nearest Neighbor,就是K最近邻的意思。KNN也是一种分类算法。但是与之前说的决策树分类算法相比,这个算法算是最简单的一个了。算法的主要过程为:1、给定一个训练集数据,每个训练集数据都是已经分好类的。2、设定一个初始的测试数据a,计算a到训练集所有数据的欧几里得距离,并排序。3、选出训练集中离a距离最近的K个训练集数据。4、比较k个训练集数原创 2015-01-11 18:38:32 · 16850 阅读 · 3 评论 -
BIRCH算法---使用聚类特征树的多阶段算法
更多数据挖掘代码:https://github.com/linyiqun/DataMiningAlgorithm介绍BIRCH算法本身上属于一种聚类算法,不过他克服了一些K-Means算法的缺点,比如说这个k的确定,因为这个算法事先本身就没有设定有多少个聚类。他是通过CF-Tree,(ClusterFeature-Tree)聚类特征树实现的。BIRCH的一个重要考虑是最小化I/O,通过扫描原创 2015-02-05 18:58:27 · 12587 阅读 · 1 评论 -
EM最大期望算法
参考资料:http://blog.csdn.net/zouxy09/article/details/8537620http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html我的数据挖掘算法代码实现:https://github.com/linyiqun/DataMiningAlgorithm介绍em算法是一种迭代原创 2015-01-20 18:43:37 · 10140 阅读 · 4 评论 -
AdaBoost装袋提升算法
参开资料:http://blog.csdn.net/haidao2009/article/details/7514787更多挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm介绍在介绍AdaBoost算法之前,需要了解一个类似的算法,装袋算法(bagging),bagging是一种提高分类准确率的算法,通过给定组合投票的方式,获得最原创 2015-02-08 09:22:10 · 11241 阅读 · 1 评论 -
SVM支持向量机算法
参考资料:http://www.cppblog.com/sunrise/archive/2012/08/06/186474.html http://blog.csdn.net/sunanger_wang/article/details/7887218我的数据挖掘算法代码:https://github.com/linyiqun/DataMining原创 2015-01-16 18:43:17 · 17684 阅读 · 1 评论 -
RoughSets属性约简算法
参考资料:http://baike.baidu.com/link?url=vlCBGoGR0_97l9SQ-WNeRv7oWb-3j7c6oUnyMzQAU3PTo0fx0O5MVXxckgqUlP871xR2Le-puGfFcrA4-zIntq更多挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm介绍RoughSets算法是一种比原创 2015-02-18 09:24:59 · 10491 阅读 · 7 评论 -
gSpan频繁子图挖掘算法
参考资料:http://www.cs.ucsb.edu/~xyan/papers/gSpan.pdfhttp://www.cs.ucsb.edu/~xyan/papers/gSpan-short.pdfhttp://www.jos.org.cn/1000-9825/18/2469.pdf更多挖掘算法:https://github.com/linyiqun/DataMiningAlgor原创 2015-02-24 09:37:11 · 18309 阅读 · 27 评论 -
Apriori算法--关联规则挖掘
我的数据挖掘算法代码:https://github.com/linyiqun/DataMiningAlgorithm介绍Apriori算法是一个经典的数据挖掘算法,Apriori的单词的意思是"先验的",说明这个算法是具有先验性质的,就是说要通过上一次的结果推导出下一次的结果,这个如何体现将会在下面的分析中会慢慢的体现出来。Apriori算法的用处是挖掘频繁项集的,频繁项集粗俗的理解就是找原创 2015-01-23 18:33:37 · 22480 阅读 · 2 评论 -
维特比算法在隐马尔可夫模型中的应用
前言文章标题的两个概念也许对于许多同学们来说都相对比较陌生,都比较偏向于于理论方面的知识,但是这个算法非常的强大,在很多方面都会存在他的影子。2个概念,1个维特比算法,1个隐马尔可夫模型。你很难想象,输入法的设计也会用到其中的一些知识。HMM-隐马尔可夫模型隐马尔可夫模型如果真的要展开来讲,那短短的一篇文章当然无法阐述的清,所以我会以最简单的方式解释。隐马尔可夫模型简称HMM,根据百度百科中的描述原创 2015-08-03 23:09:39 · 3929 阅读 · 0 评论