大数据
梦想不会灭
把每一件简单的事情做好,就是不简单;把每一件平凡的事情做好,就是不平凡!相信自己,创造奇迹~~
展开
-
Hadoop2.7.1伪分布式配置
Hadoop2.7.1伪分布式配置前言Hadoop的安装分为单机方式、伪分布式方式和完全分布式方式。这里主要讲解在CentOS6.5环境中Hadoop的伪分布式安装配置。01. 关闭防火墙临时关闭:service iptables stop永久关闭:chkconfig iptables off02. 需要修改主机名,要求主机名中没有“_”和“-”vim /etc/sy...原创 2019-11-05 19:22:11 · 492 阅读 · 0 评论 -
Hadoop2.7.1完全分布式配置
Hadoop完全分布式配置前言Hadoop的安装分为单机方式、伪分布式方式和完全分布式方式。 a. 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoo...原创 2019-11-05 13:50:36 · 684 阅读 · 1 评论 -
ETL理论知识
ETL理论知识ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析、数据挖掘的基础。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。通常情况下,在BI项目总ETL会花...转载 2019-11-24 22:39:32 · 388 阅读 · 0 评论 -
ETL概述
什么是ETL?ETL就是讲业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,这个过程也就是ETL。通常,ETL是BI项目的一个很重要的环节,一般花费时间至少占据整个项目时间的1/3。ETL设计的好坏直接关系到珍格BI项目的成败。ETL主要分为三个部分:抽取(extract)、交互转换(transform)、加载(load)实现ETL,首先要实现ETL转换的过程,体现为一下几个方面:...原创 2019-11-24 22:36:52 · 696 阅读 · 0 评论 -
ETL数据分析流程
认识ETL数据分析流程一、商业BI中的应用ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。...转载 2019-11-24 22:34:13 · 6161 阅读 · 1 评论 -
Hbase和传统数据库的区别以及HBase的优缺点
Hbase和传统数据库的区别1.数据类型:Hbase只有简单的数据类型,只保留字符串;传统数据库有丰富的数据类型。2.数据操作:Hbase只有简单的插入、查询、删除、清空等操作,表和表之间是分离的,没有复杂的表和表之间的关系;传统数据库通常有各式各样的函数和连接操作。3.存储模式:Hbase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的,这样的好处是数据即是索引,访问查询涉...原创 2019-11-27 15:56:46 · 4583 阅读 · 0 评论 -
HBase中数据的读写流程
HBase的读写流程在0.96版本前后是不同的,在0.96版本之前如下图所示:流程:客户端访问Zookeeper寻找并返回-ROOT-文件的位置,然后在请求读写返回来的-ROOT-文件,读取成功返回.meta文件的位置,然后请求读取.meta文件,返回要操作的HRegionServer的位置,最后访问HRegionServer进行具体的操作。在0.96版本以后如下图所示流程:客户端访问Z...原创 2019-11-26 11:37:12 · 183 阅读 · 0 评论 -
Hive中创建表的三种方式
Hive中创建表的语句1.普通创建创建外部表删除表后数据删除,元数据还在create EXTERNAL(外部表) table 表名称(字段信息)row format delimited fields terminated by '分隔符' lines terminated by '\n'创建管理表删除表后数据删除,元数据也删除create table 表名称(字段信息)row ...原创 2019-11-27 15:25:20 · 1375 阅读 · 0 评论 -
Hive四大表类型内部表、外部表、分区表和桶表
一、概述总体上Hive有四种表:外部表,内部表(管理表),分区表,桶表。分别对应不同的需求。下面主要讲解各种表的适用情形、创建和加载数据方法。二、具体内容1.内部表自己建表插入原本在HDFS上不存在的数据就是内部表创建内部表和加载数据create table emp_inner(empno int,ename string,job string,mgr int,hiredat...原创 2019-11-25 16:10:56 · 1608 阅读 · 0 评论 -
数据库和数据仓库的区别
数据库和数据仓库的区别1.数据量:数据库的数据量<=GB,数据仓库的数据量>=TB2.数据种类:数据库中的数据种类比较单一,是结构化的,数据仓库的数据种类是多样的,结构化,半结构化,非结构化的3.数据来源:数据库的数据来源比较单一,数据仓库的数据来源有数据库,日志,爬虫,埋点等等4.事务:数据库提供了完整的事务(ACID),数据仓库是弱/无事务的5.数据冗余性:数据库精简冗余...原创 2019-11-25 15:08:49 · 615 阅读 · 0 评论 -
HDFS的读写流程
读取流程/下载1.客户端发起RPC请求到NameNode2.NameNode收到请求之后会校验这个文件是否存在3.如果文件存在,NameNode就会读取元数据,同时给DataNode一个信号4.客户端就会向NameNode要第一个Block的地址5.NameNode在收到请求之后会读取元数据,然后将第一个Block的地址放入队列中返回给客户端6.客户端收到队列之后从中选择一个较近的节点...原创 2019-11-28 11:36:03 · 134 阅读 · 0 评论 -
HDFS分布式存储系统的优缺点
优点:1.高容错性数据自动保存多个副本副本丢失后,自动恢复2.适合批处理移动计算而非数据数据位置暴露给计算框架(Block偏移量)3.适合大数据处理GB,TB,甚至PB级别的数据百万规模以上的文件数量10K+节点4.可构建在廉价机器上通过多副本提高可靠性提供了容错和恢复机制缺点:1.低延迟数据访问比如毫秒级低延迟与高吞吐率2.小文件存储占用NameNode大量...原创 2019-11-26 10:32:37 · 777 阅读 · 0 评论 -
MapReduce的shuffle过程
Map端的Shuffle:1.map方法在处理完成数据之后会将结果写出到MapTask自带的缓冲区,每一个MapTask自带一个缓冲区。2.数据在缓冲区中进行分区,排序,如果指定了Combiner,那么数据在缓冲区中还会进行合并combine(在缓冲区中的排序是将完全无序的数据进行排序,是快速排序)。3.缓冲区是维系在内存中的,默认是100M。4.当缓冲区的使用达到一定限度(溢写阈值0.8...原创 2019-11-25 12:26:33 · 263 阅读 · 0 评论 -
YARN中Container是什么?
在最基本的层面上,Container是单个节点上如RAM、CPU和磁盘等物理资源的集合。单个节点上(或者单个大节点)可以有多个Container。系统中的每个节点可以认为是由内存(如512MB或者1GB)和CPU的最小容量的多个Container组成。ApplicationMaster可以请求任何Container来占据最小容量的整数倍的资源。因此Container代表了集群中单个几点上的一组资...原创 2019-11-24 22:28:27 · 1790 阅读 · 0 评论 -
Hadoop中常用的调度器
hadoop中常用的调度器有三种:1、Fifo:默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。2、计算能力调度器Capacity schedular:支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略,为了防止同一个作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源进行限定。调度时,首先按照以下策略选择一个合适队列:计算每个正在运行...原创 2019-11-24 22:24:18 · 833 阅读 · 0 评论 -
Hadoop 中的文件格式
1 SequenceFileSequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 继承自Hadoop API 的SequenceF...原创 2019-11-24 18:42:26 · 152 阅读 · 0 评论 -
MapReduce中的Map数量的确定
一、Map的个数在map阶段读取数据前,FileInputFormat会将输入文件分割成spilt,而spilt的个数决定了map的个数(一个spilt分片对应一个map)。影响map个数的因素只要有:1)文件的大小。比如,当文件大于128M(block默认值)而小于256M时,文件会被划分成两个spilt。2)文件的个数。FileInputFormat按文件进...原创 2019-11-23 17:03:58 · 2236 阅读 · 0 评论 -
Yarn中Job的执行流程
1.客户端将job提交给ResourceManager2.ResourceManager在受到job任务之后会等待NodeManager的心跳3.ResourceManager收到NodeManager的心跳之后会将job交给这个NodeManager,同时在这个NodeManager上开启一个ApplicationMaster,将job分配给这个ApplicationMaster4.App...原创 2019-11-23 16:41:19 · 687 阅读 · 0 评论 -
Hadoop 的三种调度器FIFO、Capacity Scheduler、Fair Scheduler
目前Hadoop有三种比较流行的资源调度器:FIFO 、Capacity Scheduler、Fair Scheduler。目前hadoop2.7默认使用的是Capacity Scheduler容量调度器。一、FIFO(先入先出调度器)hadoop1.x使用的默认调度器就是FIFO。FIFO采用队列方式将一个一个job任务按照时间先后顺序进行服务。比如排在最前面的job需要若干maptask和...原创 2019-11-23 14:51:47 · 836 阅读 · 0 评论 -
大数据Hive工作原理
用户提交查询等任务给Driver。编译器获得该用户的任务Plan。编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。编译器Compiler得到元数据信息,对任务进行编译,先将HiveQL转换为抽象语法树,然后将抽象语法树转换成查询块,将查询块转化为逻辑的查询计划,重写逻辑查询计划,将逻辑计划转化为物理的计划(MapReduce), 最...原创 2019-11-23 19:17:46 · 266 阅读 · 0 评论