2019年12月_大数据面试指南

原创 HBase特征简要

1）海量存储Hbase适合存储PB级别的海量数据，在PB级别的数据以及采用廉价PC存储的情况下，能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性，才为海量数据的存储提供了便利。2）列式存储这里的列式存储其实说的是列族存储，Hbase是根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。3）极易扩展Hbase的扩展性主...

2019-12-12 21:14:08 1748

原创 RDBMS(关系型数据库)与HBase的对比

1、关系型数据库结构：数据库以表的形式存在支持FAT、NTFS、EXT、文件系统使用Commit log存储日志参考系统是坐标系统使用主键（PK）支持分区使用行、列、单元格功能：支持向上扩展使用SQL查询面向行，即每一行都是一个连续单元数据总量依赖于服务器配置具有ACID支持适合结构化数据传统关系型数据库一般都是中心化的支持事务支持Join2、HBas...

2019-12-12 21:12:50 1832

原创 HBase与Hadoop的关系

1、HDFS为分布式存储提供文件系统针对存储大尺寸的文件进行优化，不适用对HDFS上的文件进行随机读写直接使用文件数据模型不灵活使用文件系统和处理框架优化一次写入，多次读取的方式2、HBase提供表状的面向列的数据存储针对表状数据的随机读写进行优化使用key-value操作数据提供灵活的数据模型使用表状存储，支持MapRed...

2019-12-12 21:10:12 3146

原创 HBase基本介绍

简介hbase是bigtable的开源java版本。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase查询数据功能很简单，不支持join等复...

2019-12-12 21:07:53 1688

原创 Impala-shell命令参数

1．impala-shell外部命令所谓的外部命令指的是不需要进入到impala-shell交互命令行当中即可执行的命令参数。impala-shell后面执行的时候可以带很多参数。你可以在启动 impala-shell 时设置，用于修改命令执行环境。impala-shell –h可以帮助我们查看帮助手册。也可以参考课程附件资料。比如几个常见的：impala-shell –r刷新impala...

2019-12-10 22:09:10 1688

原创 Impala安装部署

1．安装前提集群提前安装好hadoop，hive。hive安装包scp在所有需要安装impala的节点上，因为impala需要引用hive的依赖包。hadoop框架需要支持C程序访问接口，查看下图，如果有该路径下有这么文件，就证明支持C接口。2．下载安装包、依赖包由于impala没有提供tar包进行安装，只提供了rpm包。因此在安装impala的时候，需要使用rpm包来进行安装。rpm...

2019-12-10 22:03:06 1684

1．Impala基本介绍impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具impala是参照谷歌的新三篇论文（Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具）当中的Dremel实现而来，其中旧三篇...

2019-12-10 21:43:08 1703

原创 Hive分桶表

分桶表将数据按照指定的字段进行分成多个桶中去，说白了就是将数据按照字段进行划分，可以将数据按照字段划分到多个文件当中去开启hive的桶表功能set hive.enforce.bucketing=true;设置reduce的个数set mapreduce.job.reduces=3;创建桶表create table course (c_id string,c_name string...

2019-12-04 22:14:45 1682

原创 Hive 分区表

分区表：在大数据中，最常用的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天，或者每小时进行切分成一个个的小的文件，这样去操作小的文件就会容易得多了创建分区表语法create table score(s_id string,c_id string, s_scor...

2019-12-04 22:12:37 1707

原创 Hive 外部表和内部表

外部表：外部表说明：外部表因为是指定其他的hdfs路径的数据加载到表当中来，所以hive表会认为自己不完全独占这份数据，所以删除hive表的时候，数据仍然存放在hdfs当中，不会删掉管理表和外部表的使用场景：每天将收集到的网站日志定期流入HDFS文本文件。在外部表（原始日志表）的基础上做大量的统计分析，用到的中间表、结果表使用内部表存储，数据通过SELECT+INSERT进入内部表。操作...

2019-12-04 22:10:17 1700

原创 Hive基本操作

创建数据库与创建数据库表创建数据库操作创建数据库create database if not exists myhive;use myhive;说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</name><value>/user/hive/w...

2019-12-04 22:07:36 1667

原创 MySQL的join关键字详解

SQL Join联接子句用于在两个或更多在数据库中的表的记录组合。JOIN是通过使用从两个表字段共通的值组合连接起来。MySQL官方只提供了三种join方式，内连接、左连接和右连接，不支持其他的连接关键字。但是可以通过一定的语法将达到其他的连接的效果。1.内连接 inner join最频繁使用的和重要的联接是INNER JOIN。它也被称为一个等值连接。INNER JOIN通过结合基于联接谓...

2019-12-04 21:53:50 1662

原创 Flume简单案例

1．采集目录到HDFS采集需求：服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去根据需求，首先定义以下3大要素采集源，即source——监控文件目录 : spooldir下沉目标，即sink——HDFS文件系统 : hdfs sinksource和sink之间的传递通道——channel，可用file channel 也可以用内存chann...

2019-12-04 21:46:14 1645

原创 Flume安装部署

二、Flume安装部署Flume的安装非常简单上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.8.0-bin.tar.gz然后进入flume的目录，修改conf下的flume-env.sh，在里面配JAVA_HOMEexport JAVA_HOME=/export/servers/apache-flume-1.8.0-binexport P...

2019-12-04 21:42:30 1705

原创 Apache Flume简介

1．概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume在删除自己缓存的数据。Flume支持定制各类数据...

2019-12-04 21:37:05 1844

czxylzl的博客