大数据
文章平均质量分 91
学无止境2018
一步步探索:软件开发,java学习,微信公开发,机器学习,大数据,深度学习……
展开
-
HDFS探索理解
1、分布式文件系统(HDFS)的引入:数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。容...原创 2018-07-04 16:39:26 · 231 阅读 · 0 评论 -
MapReduce探索总结
1、概述:MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。2、Mapreduce原理: 3、执行步骤:一、map任务处理1.1读取输入文件内容,解析成key、va...原创 2018-07-04 19:54:48 · 282 阅读 · 0 评论 -
Zookeeper学习总结
什么是Zookeeper原创 2018-07-05 17:08:44 · 1384 阅读 · 0 评论 -
hadoop探索学习
下载地址:http://hadoop.apache.org/releases.html原创 2018-07-04 16:21:36 · 148 阅读 · 0 评论 -
Hive学习总结
1、Hive是什么?Hive 是建立在 Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉SQL 的用户查询数据。同时,这个语言也允许熟悉MapReduce 开发者的开发自定义的mapper 和 redu...原创 2018-07-06 10:34:48 · 433 阅读 · 0 评论 -
HBase学习总结
1、 HBase是什么HBase(Hadoop Database)是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBas...原创 2018-07-06 11:08:19 · 761 阅读 · 0 评论