走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

链接挖掘算法之PageRank算法和HITS算法

参考资料:http://blog.csdn.net/hguisu/article/details/7996185 更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm 链接分析 在链接分析中有2个经典的算法,1个是PageRank算...

2015-01-30 20:16:04

阅读数:9050

评论数:4

分布式系统阅读笔记(二十一)-----分布式系统设计(Google Case Study)

介绍 本篇笔记是分布式系统全书最后一部分的内容了,本身不会有新的知识点,主要还是给出一个具体的例子,去全面的了解一个完整的分布式系统的一些细节,包括设计个一些注意点,比如数据存储设计,协调服务,节点通信和分布式计算服务等等。首先设计一个全新的分布式系统的时候,重新回顾一下分布式系统存在的挑战:异构...

2015-01-29 15:21:10

阅读数:1838

评论数:0

FP-Tree频繁模式树算法

参考资料:http://blog.csdn.net/sealyao/article/details/6460578 更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm 介绍 FP-Tree算法全称是FrequentPattern Tre...

2015-01-28 18:21:46

阅读数:8229

评论数:5

分布式系统阅读笔记(二十)-----分布式多媒体系统

介绍 现在的分布式系统大有越来越往分布式多媒体系统的应用上走的趋势了。多媒体的应用本质上是对于持续数据流的一种消耗。包括音频以及视频,音频是由一个个audio Sample组成,而视频则是video frame组成。有时因为网络条件的原因,他是可以允许部分的延时的,延时造成的丢包率在一定比率上也是...

2015-01-26 15:25:59

阅读数:1902

评论数:0

分布式系统阅读笔记(十九)-----移动计算和无处不在的计算

介绍 随着科技的迅速发展,由于现在的终端设备不断的缩小化以及无线连接的发展,使得移动计算已经是无处不在的了。移动计算与我们所说的一般的计算模型的最大不同点在于他的不可预见性,因为周围的环境随着物体的移动或者是其他条件会不时的改变,而且改变的频率还比较高。因为计算的移动性比较强,所以对于其中的安全性...

2015-01-25 16:14:44

阅读数:1974

评论数:0

Apriori算法--关联规则挖掘

我的数据挖掘算法代码:https://github.com/linyiqun/DataMiningAlgorithm 介绍 Apriori算法是一个经典的数据挖掘算法,Apriori的单词的意思是"先验的",说明这个算法是具有先验性质的,就是说要通过上一次的结果推导出下一次...

2015-01-23 18:33:37

阅读数:16314

评论数:2

分布式系统阅读笔记(十八)-----副本备份技术

介绍 在分布式系统中,副本和备份是一个用来提供高可用性和一定的容错能力的手段和措施。HA(高可用性)在当前越来越成为一个趋势在一些移动计算的领域和一些失去连接的状态场景之下。在这篇笔记中,我会介绍一些副本备份的相关技术点,比如基于隶属度管理的组通信,还有被动和主动备份技术,以及最后的副本分区的一些...

2015-01-21 15:49:59

阅读数:2380

评论数:0

EM最大期望算法

参考资料:http://blog.csdn.net/zouxy09/article/details/8537620 http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html 我的数据挖掘算法代码实现:https://git...

2015-01-20 18:43:37

阅读数:7212

评论数:4

分布式系统阅读笔记(十七)-----分布式事务

介绍 分布式事务和上篇中说到的普通事务的差别在于他所涉及到的服务器超过1个。分布式事务可能是1层的也可能是嵌套多层的。为了协调分布式事务的,就出现了原子提交协议,比较著名的2pc协议就是其中的一个例子。之前的3种并发控制的方法锁控制,乐观并发控制,时间戳序列方法,经过一定的扩展也可以运用在分布式的...

2015-01-18 15:26:21

阅读数:1946

评论数:0

SVM支持向量机算法

参考资料:http://www.cppblog.com/sunrise/archive/2012/08/06/186474.html                       http://blog.csdn.net/sunanger_wang/article/details/7887218...

2015-01-16 18:43:17

阅读数:12924

评论数:1

分布式系统阅读笔记(十六)-----事务和并发控制

介绍 在分布式系统中,事务的运用和共享资源的并发控制是非常常见的。简单的说,事务就是一些原子的操作的集合。原子操作的意思就是要么操作成功要么操作失败,没有其他的选择。并发控制是出现在高并发场景的时候,本篇主要描述3种常见的手段,1、锁的措施。2、乐观并发控制手段。3、时间戳序列方式。在此之前,先...

2015-01-16 15:09:39

阅读数:3279

评论数:0

分布式系统阅读笔记(十五)-----协调和一致性

介绍 这里说的协调和一致性指的是在分布式系统的环境下,对于多进程访问共享资源的一个协调和数据状态的一致性的保证。其中的措施包括分布式的共有排除机理,在组通信中的协调和一致性的手段,还有这其中可能会出现的一些问题。在整个协调服务的过程中,有一个东西非常重要,就是失败的监听,这里需要一个失败监听器。可...

2015-01-14 14:17:00

阅读数:2154

评论数:0

朴素贝叶斯分类算法

参考资料地址: http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html 我的数据挖掘算法实现源码地址:https://github.com/linyiqun/DataMiningAlgori...

2015-01-13 18:40:00

阅读数:14970

评论数:8

分布式系统阅读笔记(十四)-----时钟和全局状态

介绍 在分布式系统中,时间是一个巨大的问题,因为在不同的电脑上会有他们自己的物理时间,如何做到状态事务的一致性往往比较难。缺少一个全局的物理时间使得很难去发现一段分布式程序的执行的状态是如何。 时钟,事件,进程状态和时间同步算法 小标题中提到的3个 名次在分布式的时间中出现最多频率的词。如何同步不...

2015-01-12 11:22:26

阅读数:3668

评论数:0

K-最近邻算法

介绍 KNN算法全名为k-Nearest Neighbor,就是K最近邻的意思。KNN也是一种分类算法。但是与之前说的决策树分类算法相比,这个算法算是最简单的一个了。算法的主要过程为: 1、给定一个训练集数据,每个训练集数据都是已经分好类的。 2、设定一个初始的测试数据a,计算a到训练集所有数据的...

2015-01-11 18:38:32

阅读数:11571

评论数:0

CART分类回归树算法

CART分类回归树算法 与上次文章中提到的ID3算法和C4.5算法类似,CART算法也是一种决策树分类算法。CART分类回归树算法的本质也是对数据进行分类的,最终数据的表现形式也是以树形的模式展现的,与ID3,C4.5算法不同的是,他的分类标准所采用的算法不同了。下面列出了其中的一些不同之处: ...

2015-01-09 18:37:27

阅读数:11745

评论数:6

分布式系统阅读笔记(十三)-----命名服务

介绍 这篇笔记将要讲述的是命名服务,命名服务用一句话说就是帮助客户端进行资源的定位通过给定他们的名字的方式,与命名服务十分类似的,这里还会提到目录服务,具体的说是可以通过属性查找,后面将会以DNS,GNS等为例子。 1、在这里说的名字是指与对应的对象进行了绑定的关系,而属性指的是对象与多个属性值进...

2015-01-08 16:50:46

阅读数:3867

评论数:0

分布式系统阅读笔记(十二)-----分布式文件系统

一、介绍 一个分布式系统本质上就是一段程序能够存储和访问远程文件就像访问本地文件类似,能够允许任何连上网络上的用户都可以访问。在后面的记录中,主要是对2大文件系统NFS和AFS做详细的介绍和分析。 1、文件系统在最初的设计时往往是按照中心结点服务的方式构建,在中心节点服务器中保持着大量的文件资...

2015-01-06 15:17:40

阅读数:2129

评论数:0

决策分类树算法之ID3,C4.5算法系列

一、引言 在最开始的时候,我本来准备学习的是C4.5算法,后来发现C4.5算法的核心还是ID3算法,所以又辗转回到学习ID3算法了,因为C4.5是他的一个改进。至于是什么改进,在后面的描述中我会提到。 二、ID3算法 ID3算法是一种分类决策树算法。他通过一系列的规则,将数据最后分类成决策树...

2015-01-04 18:19:14

阅读数:21169

评论数:16

分布式系统阅读笔记(十一)-----安全

一、介绍 在分布式系统中,对于数据的隐私的保证性,完整性和可用性显得至关的重要。安全攻击的手段可以去窃取,篡改用户的信息。正是因为如此种种的情况发生了,才有了后面一系列的安全的相关防御方法。 1、这些安全的机理本质上就是以一种预想的方式对资源进行一层包装。这种包装隔离的手段可以是物理上的隔离,比如...

2015-01-04 11:00:22

阅读数:2622

评论数:0

提示
确定要删除当前文章?
取消 删除