大数据
文章平均质量分 75
张建闯
这个作者很懒,什么都没留下…
展开
-
kudu: 基于快速数据的快速分析
背景kudu是Cloudera公司研发的,最开始是为了弥补大数据领域的一部分空缺。对于HDFS来说,因为它的定位就是文件存储系统,所以主要就是管理文件的,那么他的使命的让你快速找到文件,而不是随机获取这个文件的某一条数据对于HBASE来说呢,他是为了随机读取数据而生的,所以根据主键进行随机读取,速度是非常快的,但是对于分析来说,就显得心有余而力不足了也就是在这个背景之下,kudu就诞生了,他既能进行大量数据的顺序读取,而且数据的插入,数据的随机读取都非常快,而且能充分发挥现代先进存储的能力。整原创 2021-09-14 08:36:43 · 366 阅读 · 0 评论 -
impala系列:服务API--select
基本语法[WITH name AS (select_expression) [, ...] ]SELECT [ALL | DISTINCT] [STRAIGHT_JOIN] expression [, expression ...]FROM table_reference [, table_reference ...][[FULL | [LEFT | RIGHT] INNER | [LEFT | RIGHT] OUTER | [LEFT | RIGHT] SEMI | [LEFT | R原创 2021-04-28 09:31:43 · 533 阅读 · 0 评论 -
impala系列:服务API--set
set语句是对impala的配置,该配置生效于当前session。语法SET query_option=option_value选项ABORT_ON_ERROR:默认为false,如果为true,当发生问题后,不论大小直接停止查询。ALLOW_ERASURE_CODED_FILES:默认为false,为true则会清除在impala中的编码文件。APPX_COUNT_DISTINCT:默认为false,如果为true,则查询时会将COUNT(DISTINCT)查询隐式转换为NDV()函数,结原创 2021-04-24 09:17:21 · 554 阅读 · 0 评论 -
impala系列:服务API--DML
文章目录INSERT Statement.LOAD DATA Statement.INSERT Statement.Impala支持插入到使用Impala CREATE TABLE语句创建的表和分区中,或者插入到通过hive创建的预定义表和分区中。语法[with_clause] INSERT [hint_clause] { INTO | OVERWRITE } [TABLE] table_name [(column_list)] [ PARTITION (partition_clause原创 2021-04-22 16:31:03 · 297 阅读 · 0 评论 -
impala系列:服务API--DDL
创建数据库在Impala中,数据库不存储数据,也不会描述数据,而是管理一组表,视图和函数。 在HDFS中实际表现为一个目录,目录中包含表分区和实际存储数据的文件。CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT 'database_comment'] [LOCATION hdfs_path]; # 中括号中的参数为可选参数当数据库被创建之后,会在HDFS上的impala数据文件夹中为你创建一个带有.db后缀的文件夹。[q原创 2021-04-20 09:18:54 · 682 阅读 · 0 评论 -
impala系列:服务API--impala-shell
impala的安装可以自行搜索,本地测试,可以将statestore和catalog service安装在同一个节点,也可以直接安装在impalad节点上,安装好impala之后,可以直接使用impala-shell连接到impala。impala-shell[athena@bxv-dapgateway-03 ~]$ impala-shell --helpUsage: impala_shell.py [options]Options: -h, --help 展示帮助信息原创 2021-04-19 08:26:59 · 528 阅读 · 0 评论 -
impala系列:impala架构
Impala是一款能够在许多系统上运行的MPP(Massively Parallel Processing,即大规模并行处理)查询执行引擎。impala并不做存储,而是在其他存储软件之上的计算引擎,主要有三个主要组件构成,即Impala daemon(Impalad),Impala Statestore和Impala Catalog Service。Impala daemon(Impalad)Impala daemon(也称为impalad)接受来自各种接口的查询,比如impala shell,J原创 2021-04-18 09:03:56 · 614 阅读 · 1 评论 -
MapReduce流程
从上图(此图是Apache官网图片)可以看到以下几个节点:Container:是计算资源的抽象代表着一组内存/cpu/网路的占用。ResourceManager:统筹计算资源,管理所有NodeManager,进行资源分配。NodeManager:管理物理主机上的计算资源,负责向RM汇报自身状态信息MRAppMaster:计算任务的Master,负责申请计算资源,协调计算任务。YarnCh...原创 2020-03-20 11:26:48 · 127 阅读 · 0 评论 -
HDFS架构设计
此图中可以看到有以下组件构成(这个图是Apache官网的图片):Namenode:是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。Datanode:集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。Block:是文件系统中的文件块,默认是128M,可以配置Rack:机架HDFS采用master/slave架构。一个HDFS集...原创 2020-03-20 11:25:30 · 132 阅读 · 0 评论 -
Linux 7 Hadoop2.6.0单机和集群搭建
Hadoop单机搭建Hadoop集群搭建原创 2020-03-19 18:10:40 · 194 阅读 · 0 评论