走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

18大经典数据挖掘算法小结

本文所有涉及到的数据挖掘代码的都放在了我的github上了:https://github.com/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等...

2015-02-27 10:04:01

阅读数:14662

评论数:17

维特比算法在隐马尔可夫模型中的应用

前言文章标题的两个概念也许对于许多同学们来说都相对比较陌生,都比较偏向于于理论方面的知识,但是这个算法非常的强大,在很多方面都会存在他的影子。2个概念,1个维特比算法,1个隐马尔可夫模型。你很难想象,输入法的设计也会用到其中的一些知识。HMM-隐马尔可夫模型隐马尔可夫模型如果真的要展开来讲,那短短...

2015-08-03 23:09:39

阅读数:3087

评论数:0

余弦定理实现新闻自动分类算法

前言余弦定理,这个在初中课本中就出现过的公式,恐怕没有人不知道的吧。但是另外一个概念,可能不是很多的人会听说过,他叫空间向量,一般用e表示,高中课本中有专门讲过这个东西,有了余弦定理和向量空间,我们就可以做许多有意思的事情了,利用余弦定理计算文本相似度的算法就是其中一个很典型的例子。当然这个话题太...

2015-07-27 21:53:33

阅读数:5005

评论数:0

再学贝叶斯网络--TAN树型朴素贝叶斯算法

前言在前面的时间里已经学习过了NB朴素贝叶斯算法, 又刚刚初步的学习了贝叶斯网络的一些基本概念和常用的计算方法。于是就有了上篇初识贝叶斯网络的文章,由于本人最近一直在研究学习>,也接触到了许多与贝叶斯网络相关的知识,可以说朴素贝叶斯算法这些只是我们所了解贝叶斯知识的很小的一部分。今天我要总结...

2015-07-05 15:18:09

阅读数:5093

评论数:0

初识贝叶斯网络

前言 一看到贝叶斯网络,马上让人联想到的是5个字,朴素贝叶斯,在所难免,NaiveByes的知名度确实会被贝叶斯网络算法更高一点。其实不管是朴素贝叶斯算法,还是今天我打算讲述的贝叶斯网络算法也罢,归根结底来说都是贝叶斯系列分类算法,他的核心思想就是基于概率学的知识进行分类判断,至于分类得到底准不准...

2015-06-29 16:38:45

阅读数:5454

评论数:1

网络新闻评论观点挖掘系统实现

前言 网络新闻观点挖掘系统事实上本质是属于文本数据挖掘范畴的,对于文本挖掘的方式,在早期主要是基于Web文本挖掘领域的。当然这个挖掘的尺度是可以控制的,粗粒度的挖掘相对于细粒度的挖掘要简单不少,粗粒度挖掘可以快速的多数网民们对某新闻的观点倾向,这也是我毕设作品所需要达到的目标。 系统设计目标 平时...

2015-05-31 21:06:31

阅读数:3302

评论数:2

腾讯新闻评论数据爬取

前言 鉴于最近在做观点挖掘的相关工作,观点的数据源是网络评论数据,于是第一个想到的就是新闻观点数据,一个热门的新闻可能一晚上就会有上万条评论,所以如何分析并利用好这些评论信息,将会是一件非常有意思的事情,观点挖掘是我研究的目的,当然要想很好解决这个问题,所以我自然要解决数据源的问题,于是乎,我就想...

2015-05-17 22:28:00

阅读数:4470

评论数:1

ACO蚁群算法解决TSP旅行商问题

前言 蚁群算法也是一种利用了大自然规律的启发式算法,与之前学习过的GA遗传算法类似,遗传算法是用了生物进行理论,把更具适应性的基因传给下一代,最后就能得到一个最优解,常常用来寻找问题的最优解。当然,本篇文章不会主讲GA算法的,想要了解的同学可以查看,我的遗传算法学习和遗传算法在走迷宫中的应用。话题...

2015-04-30 15:31:45

阅读数:9941

评论数:2

从Apriori到MS-Apriori算法

前言 最近的几个月一直在研究和学习各种经典的DM,机器学习的相关算法,收获还是挺多的,另外还整了一个DM算法库,集成了很多数据挖掘算法,放在了我的github上,博友的热度超出我的想象,有很多人给我点了star,在此感谢各大博友们,我将会继续更新我的DM算法库。也许这些算法还不能直接拿来用,但是可...

2015-04-16 22:42:53

阅读数:3079

评论数:0

多维空间分割树--KD树

算法介绍 KD树的全称为k-Dimension Tree的简称,是一种分割K维空间的数据结构,主要应用于关键信息的搜索。为什么说是K维的呢,因为这时候的空间不仅仅是2维度的,他可能是3维,4维度的或者是更多。我们举个例子,如果是二维的空间,对于其中的空间进行分割的就是一条条的分割线,比如说下面这个...

2015-04-10 21:39:58

阅读数:4766

评论数:1

随机森林和GBDT的学习

参考文献:http://www.zilhua.com/629.html http://www.tuicool.com/articles/JvMJve http://blog.sina.com.cn/s/blog_573085f70101ivj5.html 我的数据挖掘算法:https://g...

2015-03-30 20:28:53

阅读数:6081

评论数:2

遗传算法在走迷宫游戏中的应用

前言 遗传(GA)算法是一个非常有意思的算法,因为他利用了生物进化理论的知识进行问题的求解。算法的核心就是把拥有更好环境适应度的基因遗传给下一代,这就是其中的关键的选择操作,遗传算法整体的阶段分为选择,交叉和变异操作,选择操作和变异操作在其中又是比较重要的步骤。本篇文章不会讲述GA算法的具体细节,...

2015-03-26 21:56:15

阅读数:3982

评论数:3

Chameleon两阶段聚类算法

参考文献:http://www.cnblogs.com/zhangchaoyang/articles/2182752.html(用了很多的图和思想) 博客园(华夏35度) 作者:Orisun 数据挖掘算法-Chameleon算法.百度文库 我的算法库:https://github.com/l...

2015-03-23 20:43:37

阅读数:8669

评论数:3

基于连通图的分裂聚类算法

参考文献:基于连通图动态分裂的聚类算法.作者:邓健爽 郑启伦 彭宏 邓维维(华南理工大学计算机科学与工程学院,广东广州510640) 我的算法库:https://github.com/linyiqun/lyq-algorithms-lib  算法介绍 从文章的标题可以看出,今天我所介绍的算法...

2015-03-19 20:22:51

阅读数:3515

评论数:0

dbscan基于密度的空间聚类算法

参考文献:百度百科 http://baike.baidu.com 算法介绍 说到聚类算法,大家如果有看过我写的一些关于机器学习的算法文章,一定都这类算法不会陌生,之前将的是划分算法(K均值算法)和层次聚类算法(BIRCH算法),各有优缺点和好坏。本文所述的算法是另外一类的聚类算法,他能够克服BIR...

2015-03-16 20:24:44

阅读数:5093

评论数:2

gSpan频繁子图挖掘算法

参考资料:http://www.cs.ucsb.edu/~xyan/papers/gSpan.pdf http://www.cs.ucsb.edu/~xyan/papers/gSpan-short.pdf http://www.jos.org.cn/1000-9825/18/2469.pdf 更多...

2015-02-24 09:37:11

阅读数:12949

评论数:25

RoughSets属性约简算法

参考资料:http://baike.baidu.com/link?url=vlCBGoGR0_97l9SQ-WNeRv7oWb-3j7c6oUnyMzQAU3PTo0fx0O5MVXxckgqUlP871xR2Le-puGfFcrA4-zIntq 更多挖掘算法:https://github.com...

2015-02-18 09:24:59

阅读数:5587

评论数:5

CBA算法---基于关联规则进行分类的算法

更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm 介绍 CBA算法全称是Classification base of Association,就是基于关联规则进行分类的算法,说到关联规则,我们就会想到Apriori和FP-Tree...

2015-02-14 19:02:02

阅读数:6029

评论数:2

PrefixSpan序列模式挖掘算法

更多数据挖掘代码:https://github.com/linyiqun/DataMiningAlgorithm 介绍 与GSP一样,PrefixSpan算法也是序列模式分析算法的一种,不过与前者不同的是PrefixSpan算法不产生任何的侯选集,在这点上可以说已经比GSP好很多了。PrefixS...

2015-02-12 19:06:27

阅读数:17441

评论数:8

GSP序列模式分析算法

参考资料:http://blog.csdn.net/zone_programming/article/details/42032309 更多数据挖掘代码:https://github.com/linyiqun/DataMiningAlgorithm 介绍 GSP算法是序列模式挖掘算法的一种,他是...

2015-02-10 09:12:01

阅读数:8177

评论数:0

提示
确定要删除当前文章?
取消 删除