自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

  • 博客(11)
  • 收藏
  • 关注

原创 18大经典数据挖掘算法小结

本文所有涉及到的数据挖掘代码的都放在了我的github上了:https://github.com/linyiqun/DataMiningAlgorithm大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希

2015-02-27 10:04:01 19057 17

原创 LZW压缩算法

介绍LZW算法是非常常见的一种压缩算法,他的压缩原理是对于多次重复出现的字符串,进行压缩,至于怎么压缩,在后文中会细细描述,LZW算法可以用在很多的场合,诸如图像压缩,文本压缩等等,而且算法简单易懂,并不是人们想象中的那么深奥。算法原理在介绍算法原理之前,得先明白几个概念:1、Prefix,在这里代表前缀字符的意思。2、Suffix,对应的意思是后缀字符的意思。为什么提到这

2015-02-27 19:24:18 5498

原创 gSpan频繁子图挖掘算法

参考资料:http://www.cs.ucsb.edu/~xyan/papers/gSpan.pdfhttp://www.cs.ucsb.edu/~xyan/papers/gSpan-short.pdfhttp://www.jos.org.cn/1000-9825/18/2469.pdf更多挖掘算法:https://github.com/linyiqun/DataMiningAlgor

2015-02-24 09:37:11 18274 27

原创 RoughSets属性约简算法

参考资料:http://baike.baidu.com/link?url=vlCBGoGR0_97l9SQ-WNeRv7oWb-3j7c6oUnyMzQAU3PTo0fx0O5MVXxckgqUlP871xR2Le-puGfFcrA4-zIntq更多挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm介绍RoughSets算法是一种比

2015-02-18 09:24:59 10454 7

原创 CBA算法---基于关联规则进行分类的算法

更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm介绍CBA算法全称是Classification base of Association,就是基于关联规则进行分类的算法,说到关联规则,我们就会想到Apriori和FP-Tree算法都是关联规则挖掘算法,而CBA算法正是利用了Apriori挖掘出的关联规则,然后做分类判断,所以在

2015-02-14 19:02:02 11566 5

原创 PrefixSpan序列模式挖掘算法

更多数据挖掘代码:https://github.com/linyiqun/DataMiningAlgorithm介绍与GSP一样,PrefixSpan算法也是序列模式分析算法的一种,不过与前者不同的是PrefixSpan算法不产生任何的侯选集,在这点上可以说已经比GSP好很多了。PrefixSpan算法可以挖掘出满足阈值的所有序列模式,可以说是非常经典的算法。序列的格式就是上文中提到过的类

2015-02-12 19:06:27 22425 10

原创 GSP序列模式分析算法

参考资料:http://blog.csdn.net/zone_programming/article/details/42032309更多数据挖掘代码:https://github.com/linyiqun/DataMiningAlgorithm介绍GSP算法是序列模式挖掘算法的一种,他是一种类Apriori的一种,整个过程与Apriori算法比较类似,不过在细节上会略有不同,在下

2015-02-10 09:12:01 14387 1

原创 AdaBoost装袋提升算法

参开资料:http://blog.csdn.net/haidao2009/article/details/7514787更多挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm介绍在介绍AdaBoost算法之前,需要了解一个类似的算法,装袋算法(bagging),bagging是一种提高分类准确率的算法,通过给定组合投票的方式,获得最

2015-02-08 09:22:10 11221 1

原创 分布式系统阅读笔记(二十二)-----时钟和时钟同步

时钟的基本概念时钟时钟在一般意义上指的是一个计算机的物理时间,每个计算机都会包括他们自己的物理时钟,不同的计算机的物理可能会不同。时钟漂移经过在同个地方的计算机,他们的物理也有可能会不一样,如果他们从刚刚开始相同的时间计时开始,过了1过月,1年也可能会有快又慢,这在专业名词上讲叫做时间漂移。本质的原因是每秒的时间偏移,经过日记月累之后,就会有可能达到1秒钟的差距,解决的办法很简单,

2015-02-06 15:10:51 10625 1

原创 BIRCH算法---使用聚类特征树的多阶段算法

更多数据挖掘代码:https://github.com/linyiqun/DataMiningAlgorithm介绍BIRCH算法本身上属于一种聚类算法,不过他克服了一些K-Means算法的缺点,比如说这个k的确定,因为这个算法事先本身就没有设定有多少个聚类。他是通过CF-Tree,(ClusterFeature-Tree)聚类特征树实现的。BIRCH的一个重要考虑是最小化I/O,通过扫描

2015-02-05 18:58:27 12550 1

原创 K-Means聚类算法

更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm算法介绍K-Means又名为K均值算法,他是一个聚类算法,这里的K就是聚簇中心的个数,代表数据中存在多少数据簇。K-Means在聚类算法中算是非常简单的一个算法了。有点类似于KNN算法,都用到了距离矢量度量,用欧式距离作为小分类的标准。算法步骤(1)、设定数字k,从n个初

2015-02-01 18:26:15 8794

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除