大数据
Pink_floyd
这个作者很懒,什么都没留下…
展开
-
大数据处理技术简介
第一章:大数据处理技术简介前言:关于大数据与云计算的这几篇文章是我一天中从教材里手打整理的,另外其中也附上了我个人的理解,记作我以后翻看的笔记。1.提升单处理器计算机系统计算速度的常用技术手段有:(1).提升计算机处理器字长———>CPU寻址位数越多,计算能力越强(2).提高处理器芯片集成度———>增加芯片中晶体管的数量(3).提升处理器的主频—————>主频越高,每秒...原创 2019-04-26 16:36:47 · 9301 阅读 · 0 评论 -
分布式文件系统HDFS
第三章:分布式文件系统HDFS (Hadoop Distributed File System)1.HDFS的六个基本特征:(1).大规模数据分布存储能力(2).高并发访问能力(3).强大的容错能力(4).顺序式文件访问(5).简单的一致性模型(一次写多次读)(6).数据块存储模式2.HDFS的基本组成结构:(PS:这个图还是很好理解的,可以结合下面一段文字记忆)一个HDFS...原创 2019-04-26 16:51:07 · 257 阅读 · 0 评论 -
MapReduce并行编程框架
第四章:MapReduce并行编程框架基于数据划分和分而治之策略的基本并行化计算模型MapReduce并行编程模型:接着是完整的MapReduce并行编程模型:(这个图很重要,也很好理解)这个图将键值对(k1;v1)经过Map函数处理得到中间结果键值对(k2;[v2]),再经过Combiner整理计算成键值对[(k3;v3)],然后键值对通过同步障使它们得以归类,最后...原创 2019-04-26 17:02:27 · 350 阅读 · 0 评论 -
分布式数据库HBase
第五章:分布式数据库HBase1.HBase是Google BigTable的一个开源实现2.这个老师没有点到,可我认为需须要了解一点这个,不然你会对为什么有了HDFS还需要HBase而感到困惑:HDFS实现了一个分布式的文件系统,虽然这个文件系统可以以分布和可扩展的方式有效存储海量数据,但文件系统缺少结构化/半结构化数据的存储管理和访问能力,而且编程接口对于很多应用来说还是太底层了。这就...原创 2019-04-26 17:07:39 · 205 阅读 · 0 评论 -
分布式数据仓库Hive
第六章:分布式数据仓库Hive1.Hive的由来:(了解一个技术或者名词应该知道它产生的初衷)为了便于熟悉SQL的传统数据库的开发人员使用Hadoop系统进行数据查询分析,开源社区基于Hadoop构建了一个可供进行数据查询分析的数据仓库Hive。Hive可直接用类似SQL的语言描述数据处理逻辑,避免开发人员在开发大数据查询分析处理程序时编写复杂的基于Java的MapReduece程序。Hiv...原创 2019-04-26 17:09:56 · 1391 阅读 · 0 评论