大数据
大数据学习
thankjj20160909
这个作者很懒,什么都没留下…
展开
-
大数据(一)——概念入门
最近在B站上看一套44集的大数据教程——经典Hadoop分布式系统基础架构。想通过对Hadoop的学习,跳到大数据领域当中。作为大数据的开篇,主要是做一些大数据扫盲,并且重点介绍Hadoop需要学些什么。1.何为大数据IBM提出大数据具有5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性);百度拥有两种类型...原创 2018-10-24 19:55:18 · 537 阅读 · 0 评论 -
Hadoop-HDFS分布式文件系统
Hadoop 生态圈的基本组成部分是 Hadoop 分布式文件系统(HDFS)。HDFS 是一种数据分布式保存机制,数据被保存在计算机集群上。数据写入一次,读取多次。HDFS为 HBase 等工具提供了基础,源于谷歌的GFS。1 基本原理HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点(NameNode)和若干个数据节点(DataNode)。名称节点...原创 2019-07-10 14:27:11 · 331 阅读 · 0 评论 -
Hadoop-MapReduce
MapReduce定义MapTask & ReduceTask输入(格式k, v)数据集 => map映射成一个中间数据集(k, v) => reduce相同的key为一组,调用一次reduce方法,方法内迭代这一组数据进行计算MapReduce理解Map:读懂数据;映射为KV模型;并行分布式;计算向数据移动Reduce:数据全量/分量加工;Reduce中可...原创 2019-07-18 17:46:48 · 118 阅读 · 0 评论 -
Hadoop-YARN
Yarn是Yet Another Resource Negotiator的缩写。根据Yarn中文官网的显示,这是一个快速、可靠、安全的依赖管理工具。在Hadoop 1.0及更早版本中,我们只能运行MapReduce,这导致图形处理、迭代计算等任务无法有效执行。在Hadoop 2.0及后续版本中,MapReduce的调度部分被外部化并重新编写为名为Yarn的新组件,Yarn最大的特点是执行调度与Ha...原创 2019-07-22 11:32:13 · 136 阅读 · 0 评论 -
Hadoop环境搭建
Hadoop学习总体参考:https://gitbook.cn/books/5954c9600326c7705af8a92a/index.html下面是简要记录与留痕虚拟机准备1.VMware安装下载地址:https://my.vmware.com/cn/web/vmware/details?downloadGroup=WKST-1415-WIN&productId=686&am...原创 2019-07-10 22:20:18 · 259 阅读 · 0 评论 -
Impala
1 Impala的基本概念1.1 什么是ImpalaCloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存技术,兼顾数据仓库,具有实时、批处理、多并发等优点是CDH平台首选的PB级大数据实时查询分析引擎。1.2 Impala优缺点1.2.1 优点1)基于内存运算,不需要把中间结果写入磁盘,省掉了大量IO开销2...原创 2019-10-14 14:45:08 · 680 阅读 · 0 评论