自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

  • 博客(23)
  • 收藏
  • 关注

原创 链接挖掘算法之PageRank算法和HITS算法

参考资料:http://blog.csdn.net/hguisu/article/details/7996185更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm链接分析在链接分析中有2个经典的算法,1个是PageRank算法,还有1个是HITS算法,说白了,都是做链接分析的。具体是怎么做呢,继续往下看。PageRank

2015-01-30 20:16:04 15069 4

原创 分布式系统阅读笔记(二十一)-----分布式系统设计(Google Case Study)

介绍本篇笔记是分布式系统全书最后一部分的内容了,本身不会有新的知识点,主要还是给出一个具体的例子,去全面的了解一个完整的分布式系统的一些细节,包括设计个一些注意点,比如数据存储设计,协调服务,节点通信和分布式计算服务等等。首先设计一个全新的分布式系统的时候,重新回顾一下分布式系统存在的挑战:异构性,开放性,安全性,扩展性,并发控制等等,可见完成一个恶完整的分布式系统还是有很多的功课要做的。

2015-01-29 15:21:10 2486

原创 FP-Tree频繁模式树算法

参考资料:http://blog.csdn.net/sealyao/article/details/6460578更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm介绍FP-Tree算法全称是FrequentPattern Tree算法,就是频繁模式树算法,他与Apriori算法一样也是用来挖掘频繁项集的,不过不同的是,FP

2015-01-28 18:21:46 13017 5

原创 分布式系统阅读笔记(二十)-----分布式多媒体系统

介绍现在的分布式系统大有越来越往分布式多媒体系统的应用上走的趋势了。多媒体的应用本质上是对于持续数据流的一种消耗。包括音频以及视频,音频是由一个个audio Sample组成,而视频则是video frame组成。有时因为网络条件的原因,他是可以允许部分的延时的,延时造成的丢包率在一定比率上也是可以接受的。在多媒体应用中,很在意的quality of service服务质量的要求,因此他这里需

2015-01-26 15:25:59 2858

原创 分布式系统阅读笔记(十九)-----移动计算和无处不在的计算

介绍随着科技的迅速发展,由于现在的终端设备不断的缩小化以及无线连接的发展,使得移动计算已经是无处不在的了。移动计算与我们所说的一般的计算模型的最大不同点在于他的不可预见性,因为周围的环境随着物体的移动或者是其他条件会不时的改变,而且改变的频率还比较高。因为计算的移动性比较强,所以对于其中的安全性和隐私性要求就会体现出来。1、移动计算的之所以会叫做此名称在于设备的可移动性,典型的设备如个人手

2015-01-25 16:14:44 3462

原创 Apriori算法--关联规则挖掘

我的数据挖掘算法代码:https://github.com/linyiqun/DataMiningAlgorithm介绍Apriori算法是一个经典的数据挖掘算法,Apriori的单词的意思是"先验的",说明这个算法是具有先验性质的,就是说要通过上一次的结果推导出下一次的结果,这个如何体现将会在下面的分析中会慢慢的体现出来。Apriori算法的用处是挖掘频繁项集的,频繁项集粗俗的理解就是找

2015-01-23 18:33:37 22436 2

原创 分布式系统阅读笔记(十八)-----副本备份技术

介绍在分布式系统中,副本和备份是一个用来提供高可用性和一定的容错能力的手段和措施。HA(高可用性)在当前越来越成为一个趋势在一些移动计算的领域和一些失去连接的状态场景之下。在这篇笔记中,我会介绍一些副本备份的相关技术点,比如基于隶属度管理的组通信,还有被动和主动备份技术,以及最后的副本分区的一些情况。1、副本在分布式系统中被用的非常的广泛,比如说被用于资源的缓存的访问,放置在代理服务器上或

2015-01-21 15:49:59 3507

原创 EM最大期望算法

参考资料:http://blog.csdn.net/zouxy09/article/details/8537620http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html我的数据挖掘算法代码实现:https://github.com/linyiqun/DataMiningAlgorithm介绍em算法是一种迭代

2015-01-20 18:43:37 10109 4

原创 分布式系统阅读笔记(十七)-----分布式事务

介绍分布式事务和上篇中说到的普通事务的差别在于他所涉及到的服务器超过1个。分布式事务可能是1层的也可能是嵌套多层的。为了协调分布式事务的,就出现了原子提交协议,比较著名的2pc协议就是其中的一个例子。之前的3种并发控制的方法锁控制,乐观并发控制,时间戳序列方法,经过一定的扩展也可以运用在分布式的事务上面。在分布式的事务上,还提供了恢复管理器用来进行对象,操作的恢复。之前已经讨论过在单一的服务器

2015-01-18 15:26:21 2652

原创 SVM支持向量机算法

参考资料:http://www.cppblog.com/sunrise/archive/2012/08/06/186474.html                       http://blog.csdn.net/sunanger_wang/article/details/7887218我的数据挖掘算法代码:https://github.com/linyiqun/DataMining

2015-01-16 18:43:17 17658 1

原创 分布式系统阅读笔记(十六)-----事务和并发控制

介绍在分布式系统中,事务的运用和共享资源的并发控制是非常常见的。简单的说,事务就是一些原子的操作的集合。原子操作的意思就是要么操作成功要么操作失败,没有其他的选择。并发控制是出现在高并发场景的时候,本篇主要描述3种常见的手段,1、锁的措施。2、乐观并发控制手段。3、时间戳序列方式。在此之前,先回顾一下平时在写程序的时候,常见的用于同步的手段,比如说:1、用synchronize关键字,这个

2015-01-16 15:09:39 4203

原创 分布式系统阅读笔记(十五)-----协调和一致性

介绍这里说的协调和一致性指的是在分布式系统的环境下,对于多进程访问共享资源的一个协调和数据状态的一致性的保证。其中的措施包括分布式的共有排除机理,在组通信中的协调和一致性的手段,还有这其中可能会出现的一些问题。在整个协调服务的过程中,有一个东西非常重要,就是失败的监听,这里需要一个失败监听器。可以用一个进程作为失败监听进程,都其他的进行进行监听,方式可以通过类似心跳机制,发送消息证明自己目前是

2015-01-14 14:17:00 3071

原创 朴素贝叶斯分类算法

参考资料地址: http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html我的数据挖掘算法实现源码地址:https://github.com/linyiqun/DataMiningAlgorithm介绍要介绍朴素贝叶斯算法(Naive Bayes),那就得先介绍贝叶斯分类算法,贝叶斯分

2015-01-13 18:40:00 21138 9

原创 分布式系统阅读笔记(十四)-----时钟和全局状态

介绍在分布式系统中,时间是一个巨大的问题,因为在不同的电脑上会有他们自己的物理时间,如何做到状态事务的一致性往往比较难。缺少一个全局的物理时间使得很难去发现一段分布式程序的执行的状态是如何。时钟,事件,进程状态和时间同步算法小标题中提到的3个 名次在分布式的时间中出现最多频率的词。如何同步不同机器上的物理时间呢,下面简单的列举几个算法1、一个叫Cristian方法同步物理时间的办法

2015-01-12 11:22:26 5304

原创 K-最近邻算法

介绍KNN算法全名为k-Nearest Neighbor,就是K最近邻的意思。KNN也是一种分类算法。但是与之前说的决策树分类算法相比,这个算法算是最简单的一个了。算法的主要过程为:1、给定一个训练集数据,每个训练集数据都是已经分好类的。2、设定一个初始的测试数据a,计算a到训练集所有数据的欧几里得距离,并排序。3、选出训练集中离a距离最近的K个训练集数据。4、比较k个训练集数

2015-01-11 18:38:32 16793 3

原创 CART分类回归树算法

CART分类回归树算法与上次文章中提到的ID3算法和C4.5算法类似,CART算法也是一种决策树分类算法。CART分类回归树算法的本质也是对数据进行分类的,最终数据的表现形式也是以树形的模式展现的,与ID3,C4.5算法不同的是,他的分类标准所采用的算法不同了。下面列出了其中的一些不同之处:1、CART最后形成的树是一个二叉树,每个节点会分成2个节点,左孩子节点和右孩子节点,而在ID3和C

2015-01-09 18:37:27 17375 7

原创 分布式系统阅读笔记(十三)-----命名服务

介绍这篇笔记将要讲述的是命名服务,命名服务用一句话说就是帮助客户端进行资源的定位通过给定他们的名字的方式,与命名服务十分类似的,这里还会提到目录服务,具体的说是可以通过属性查找,后面将会以DNS,GNS等为例子。1、在这里说的名字是指与对应的对象进行了绑定的关系,而属性指的是对象与多个属性值进行了关联。在DNS中,IP地址与域名进行了绑定,在CORBA中,将对象的名字与对象的引用进行了映射

2015-01-08 16:50:46 5478

原创 分布式系统阅读笔记(十二)-----分布式文件系统

一、介绍一个分布式系统本质上就是一段程序能够存储和访问远程文件就像访问本地文件类似,能够允许任何连上网络上的用户都可以访问。在后面的记录中,主要是对2大文件系统NFS和AFS做详细的介绍和分析。1、文件系统在最初的设计时往往是按照中心结点服务的方式构建,在中心节点服务器中保持着大量的文件资源。2、对于文件系统的分块有下面的分法:1、目录模块。2、文件模块。3、访问控制模块。4、文件访问

2015-01-06 15:17:40 3031

原创 决策分类树算法之ID3,C4.5算法系列

一、引言在最开始的时候,我本来准备学习的是C4.5算法,后来发现C4.5算法的核心还是ID3算法,所以又辗转回到学习ID3算法了,因为C4.5是他的一个改进。至于是什么改进,在后面的描述中我会提到。二、ID3算法ID3算法是一种分类决策树算法。他通过一系列的规则,将数据最后分类成决策树的形式。分类的根据是用到了熵这个概念。熵在物理这门学科中就已经出现过,表示是一个物质的稳定度,在这里就

2015-01-04 18:19:14 34299 16

原创 分布式系统阅读笔记(十一)-----安全

一、介绍在分布式系统中,对于数据的隐私的保证性,完整性和可用性显得至关的重要。安全攻击的手段可以去窃取,篡改用户的信息。正是因为如此种种的情况发生了,才有了后面一系列的安全的相关防御方法。1、这些安全的机理本质上就是以一种预想的方式对资源进行一层包装。这种包装隔离的手段可以是物理上的隔离,比如对于公司内的资源,只允许内网中的人使用,外面的人是无法访问的,当然也可以是网络层次上的隔离。2

2015-01-04 11:00:22 4180

原创 网络攻防技术

一、网络攻防技术的由来网络攻防技术的由来是伴随着网络信息业的迅速发展而兴起的。针对现今网络越来越普及化,大众化的时代,网络安全扮演着越来越重要的作用。正是由于网络的开发性,使得网络的攻击和入侵显得有机可乘。网络攻防技术已经成为新一代的网络管理员必修的一门课程了,而且当今的网络攻防技术绝不仅限于早期类似于SQL注入或者Dos拒绝服务攻击等简单的形式的攻击,黑客们的攻击手段更加的隐蔽,更加的具有难

2015-01-03 15:47:52 12692

原创 密码学概述

一、密码学的起源与发展密码学英文名称为Cryptography,密码学最为一门学科,是最近几十年开始迅速被人们重视和发展起来的。密码学往往与信息安全四个字精密的联系着。最早的密码学的”始祖”可以说是早在公元前几百年就已经出现了,当然,当时不会出现像现在这么复杂的安全体系。但是为了避免纯明文式的信息暴露,会有一个字符映射规则,本身的一个字符用另外一个字符代替,只有发送接收方都知道这样的规则,才能

2015-01-02 17:01:06 3044

原创 分布式系统阅读笔记(十)-----P2P对等网络系统

一、介绍P2P系统全称是peer-To-peer System,就是对等系统的意思。他的出现使得资源可以在所有的节点间进行数据的共享了,前提是只要他是连上网络的。在P2P系统中,所有的资源和数据对象都分布于各个节点中。1、P2P系统可以用在一些分布式的应用和服务当中。2、在P2P中一个好的资源存放算法就显得非常重要。3、正是因为上面的第2条原因,出现了P2P的中间件,目的就是为了l

2015-01-01 15:05:59 5612

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除