大数据/云计算
GarfieldEr007
这个作者很懒,什么都没留下…
展开
-
《云计算》学习笔记3——Google的云计算原理与应用(分布式锁服务——Chubby)
一、分布式锁服务今天,要接触有些难理解的知识点了,这也许就是涉及到当时赵致琢老师强调的在中国没人能有资格讲和讲得清的一块—分布式算法。说实话,这块看了两遍了,到现在还不敢说自己人懂了一半啊·!ChubbyØGoogle设计的提供粗粒度锁服务(???)的一个文件系统,它基于松耦合分布式系统,解决了分布的一致性问题——一种建议性的锁(相信看过《UNIX环境下高级编程》的人对建议性的转载 2015-07-09 15:47:43 · 2596 阅读 · 0 评论 -
大数据哈希学习: 现状与趋势
大数据哈希学习: 现状与趋势李武军①②*, 周志华①②*① 南京大学计算机软件新技术国家重点实验室, 南京210023;② 软件新技术与产业化协同创新中心, 南京210023* 联系人, E-mail: liwj@lamda.nju.edu.cn; zhouzh@lamda.nju.edu.cn2014-09-01收稿, 2014-11-03 接受, 2015-01-22转载 2016-04-28 12:47:07 · 6191 阅读 · 0 评论 -
【数字智能三篇】之一: 一页纸说清楚“什么是大数据”
按:【数字智能三篇】 目前“大数据”、“推荐系统”、“深度学习”是数字智能领域的热点研究方向,相关的书籍也很火热,比如“大数据”仅这两年就出版了很多本,让一般人看的眼花缭乱。本系列共分三篇,力求仅以一页纸的篇幅来系统完整地介绍以上这三个方向,深入浅出。以下内容摘自2014年新出版的《3D打印:三维智能数字化创造》一书,有删节,完整内容及目录详见链接:http://www.sigvc.org转载 2016-04-09 13:14:22 · 1557 阅读 · 0 评论 -
《Docker——容器与容器云》:第五章 构建自己的容器云
我们在第1章介绍了一个云计算平台应有的层次结构,其中平台即服务层(PaaS)是本书重点着墨描述的。尽管在一些经典PaaS平台中,容器技术已经扮演了一个至关重要的角色,但很遗憾,大部分经典PaaS平台中容器功能被局限在了“资源隔离”这狭小的技术范围当中了。当拥有了像Docker这样的容器技术后,是时候开始从一个新的角度来思考容器在云计算平台当中扮演的角色和地位了。5.1 再谈云平台的层次架构转载 2016-02-28 16:17:12 · 5762 阅读 · 0 评论 -
《Docker——容器与容器云》:第一章 从容器到容器云
2013年初,一个名字从云计算领域横空出世,并在整个IT行业激起千层浪。这就是Docker——一个孕育着新思想的“容器”。Docker选择容器作为核心和基础,依靠容器技术支撑的Docker迅速成为国内外各大云计算厂商以及开发者手中的至宝。在一片热火朝天之后,新的革命已经悄然来到。1.1 云计算平台回首历史,云计算时代蕴育出了众多的云计算平台,虽然在服务类型或平台功能上有所差异,但它转载 2016-02-28 16:15:20 · 7402 阅读 · 0 评论 -
十分钟了解分布式计算:GraphLab
GraphLab是一个面向大规模机器学习/图计算的分布式内存计算框架,由CMU在2009年开始的一个C++项目,这里的内容是基于论文Low, Yucheng, et al. "Distributed GraphLab: A Framework for Machine Learning in the Cloud" Proceedings of the VLDB Endowment 5.8 (转载 2016-03-15 19:01:07 · 4642 阅读 · 0 评论 -
十分钟了解分布式计算:Petuum
Petuum是一个机器学习专用分布式计算框架,本文介绍其架构,并基于文章 More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server,NIPS 2013 重点探讨其核心内容SSP协议。主要思想Parameter server提供了一个易于读写Global模型参数的接口,而SSP协议允许dis转载 2016-03-15 18:45:56 · 1994 阅读 · 0 评论 -
十分钟了解分布式计算:GraphX
GraphX原型论文GraphX是Spark中用于图(e.g., Web-Graphs and Social Networks)和图并行计算(e.g., PageRank and Collaborative Filtering)的API,可以认为是GraphLab(C++)和Pregel(C++)在Spark(Scala)上的重写及优化,跟其他分布式图计算框架相比,GraphX最大的贡转载 2016-03-15 18:30:45 · 1795 阅读 · 0 评论 -
海量数据处理算法—Bit-Map
1. Bit Map算法简介 来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。2、 Bit Map的基本思想 我们先来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这转载 2016-01-13 14:29:31 · 1158 阅读 · 0 评论 -
《云计算》学习笔记4——Google的云计算原理与应用(分布式结构化数据表BigTable)
1、设计动机与目标(1)设计动机需要存储的数据种类繁多:Google目前向公众开放的服务很多,需要处理的数据类型也非常多。包括URL、网页内容、用户的个性化设置在内的数据都是Google需要经常处理的 海量的服务请求:Google运行着目前世界上最繁忙的系统,它每时每刻处理的客户服务请求数量是普通的系统根本无法承受的 商用数据库无法满足Google的需求:一方面现有商用数据库设计着转载 2015-07-09 15:51:44 · 1784 阅读 · 0 评论 -
《云计算》学习笔记2——Google的云计算原理与应用(GFS和MapReduce)
Google业务Ø全球最大搜索引擎、Google Maps、Google Earth、Gmail、YouTube等——特点:数据量庞大、面向全球用户提供实时服务Google云计算平台技术架构¢文件存储,Google Distributed File System,GFS¢并行数据处理MapReduce¢分布式锁Chubby¢分布式结构化数据表BigTable¢分布式存储转载 2015-07-09 15:42:37 · 3070 阅读 · 0 评论 -
《云计算》学习笔记1
从今天始,开始相对专一地先学完刘鹏教授的《云计算》这本书,本想写些自己的笔记的,但已觉得其相应配套的PPT上面的已经够精简了,所以,这里的笔记,其实只是相当于自己的笔记本,方便自己以后到这个固定地方查找吧。为了简洁(甚至说可以直接按PPT上提纲来吧):1、什么是云计算云计算是一种商业模式,它是在高可靠性、高自动化(不自动化,那么对于如此大规模的机器来说,其管理那就更是累人不偿命的事啦)转载 2015-07-09 15:38:41 · 1476 阅读 · 0 评论 -
云计算平台管理的三大利器Nagios、Ganglia和Splunk
综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系,具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统,就可轻松管理Hadoop/HBase云计算平台。云计算早已不是停留在概念阶段了,各大公司都购买了大量的机器,开始正式的部署和运营。而动辄上百台的性能强劲的服务器,为运营管理带来了巨大的挑战。如果没有方便的监控报警平台,对于管理员而转载 2015-07-09 15:58:43 · 1552 阅读 · 0 评论 -
Storm入门之第一章
原书下载地址 译者:吴京润 编辑:方腾飞译者注:本文翻译自《Getting Started With Storm》,本书中所有Storm相关术语都用斜体英文表示。 这些术语的字面意义翻译如下,由于这个工具的名字叫Storm,这些术语一律按照气象名词解释spout 龙卷,读取原始数据为bolt提供数据bolt 雷电,从spout或其它bolt接收数据,并处理数据,处理结果可作转载 2016-07-18 23:16:11 · 1182 阅读 · 0 评论