qq_23596677-CSDN博客

原创分区分桶详解

create database if not exists myhive1;use myhive1;drop table if exists student;create table student(id int, name string, sex string ,age int, department string) row format delimited fields terminat...

2019-08-21 21:04:37 2943

原创 sqoop操作大全

导入：–connect 指定数据库链接url–username 指定数据库的用户名–password 指定数据库的密码–table 指定要导出数据的mysql数据库表-m 指定MapTask的个数–target-dir 指定导出数据在HDFS上的存储目录–fields-terminated-by 指定每条记录中字段之间的分隔符–where 指定...

2019-08-21 15:46:22 170

转载 etl详解

ETL讲解（很详细！！！） ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ...

2019-08-20 22:12:48 162

转载 hbase和hive整合

2019-08-16 21:28:56 185

转载 kafka面试题及答案（转）

Kafka的用途有哪些？使用场景如何？Kafka具有吞吐量大简单的优点，适用于日志收集大数据实时计算等场景Kafka中的ISR、AR又代表什么？ISR的伸缩又指什么AR：Assigned Replicas 所有副本列表ISR：InSync Replicas 同步副本列表ISR expand ：有副本恢复同步状态ISR shrink...

2019-08-16 14:58:29 823

转载 sqoop问题总结

每次通过sqoop导入MySql的时，都会生成一个以MySql表命名的.java文件，然后打成JAR包，给sqoop提交给hadoop 的MR来解析Hive表中的数据。那我们可以根据报的错误，找到对应的行，改写该文件，编译，重新打包，sqoop可以通过 -jar-file ，–class-name 组合让我们指定运行自己的jar包中的某个class。来解析该hive表中的每行数据。脚本如下：一个...

2019-08-15 20:34:31 454

转载 CAP理论

前言众所周知，CAP理论是架构师在设计分布式系统过程中，处理数据一致性问题时必须考虑的基石级理论（圣经级的，^V^）。大意是说，在分布式网络分区环境中，数据的一致性、可用性和分区容忍性三者之间，至多只能保证两者，无法三者同时保证。对于CAP理论，个人刚接触时感觉很容易理解，不就是讲的一个在分布式环境下鱼和熊掌不能兼得的问题吗？诚然，如果从直观上泛泛而谈，的确不难，即在多节点的网络环境中，当要求数...

2019-08-15 10:31:58 157

转载 zookeeper面试题大全

目录1. ZooKeeper是什么？2. ZooKeeper提供了什么？3. Zookeeper文件系统4. ZAB协议？5. 四种类型的数据节点 Znode6. Zookeeper Watcher 机制 -- 数据变更通知7. 客户端注册Watcher实现8. 服务端处理Watcher实现9. 客户端回调Watcher10. ACL权限控制机制UGO（User/Group/Others）...

2019-08-15 09:35:48 95

转载 hive中reducetask数量是怎么推算的

　　我们在使用Hive查询数据的时候经常会看到如下的输出： Query ID = iteblog_20160704104520_988f81d4-0b82-4778-af98-43cc1950d357Total jobs = 1Launching Job 1 out of 1Number of reduce tasks determined at compile time: 1In order ...

2019-08-14 17:16:19 1604

转载 hive数据倾斜调优

2019-08-14 17:01:18 75

转载 hive建表分层

http://bigdata.51cto.com/art/201710/554810.htm一、文章主题本文主要讲解数据仓库的一个重要环节：如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。本文对数据分层的讨论适合下面一些场景，超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。数据建设刚起步，大部分的数据经过粗暴的数据接入后就直接对接业务。数据建设发展到一定阶段...

2019-08-14 15:59:20 2117 1

转载 hdfs面试题

1.2HDFS（☆☆☆）1.2.1 HDFS 中的 block 默认保存几份？（A）A.3 份B.2 份C.1 份D.不...

2019-08-13 19:59:56 413

转载 mysql操作大全

...

2019-08-13 11:41:33 169

转载 mysql触发器

MySQL好像从5.0.2版本就开始支持触发器的功能了，本次博客就来介绍一下触发器，首先还是谈下概念性的东西吧：什么是触发器触发器是与表有关的数据库对象，在满足定义条件时触发，并执行触发器中定义的语句集合。触发器的这种特性可以协助应用在数据库端确保数据的完整性。举个例子，比如你现在有两个表【用户表】和【日志表】，当一个用户被创建的时候，就需要在日志表中插入创建的log日志，如果在不使用触发器...

2019-08-13 11:16:42 80

转载 mysql常见面试题

MySQL常见面试题 1. 主键超键候选键外键主键：数据库表中对储存数据对象予以唯一和完整标识的数据列或属性的组合。一个数据列只能有一个主键，且主键的取值不能缺失，即不能为空值（Null）。超键：在关系中能唯一标识元组的属性集称为关系模式的超键。一个属性可以为作为一个超键，多个属性组合在一起也可以作为一个超键。超键包含候选键和主键。候选...

2019-08-12 22:23:35 86

转载 spark常用的32个算子

官方文档上列举共有32种常见算子，包括Transformation的20种操作和Action的12种操作。Transf...

2019-08-12 17:32:41 211

转载 Spark调优高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spar...

2019-08-12 16:18:06 160

转载 spark调优基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快...

2019-08-12 16:15:37 75

原创 spark提交任务命令

// 使用spark-submit提交一个任务到普通的Spark Standalone集群：比如求Pi~/apps/spark-2.3.1-bin-hadoop2.7/bin/spark-submit –class org.apache.spark.examples.SparkPi –master spark://hadoop02:7077 –executor-memory 512m ...

2019-08-12 16:08:19 502

转载 spark分区

Spark RDD主要由Dependency、Partition、Partitioner组成，Partition是其中之一。一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份，每份数据对应到RDD中的一个Partition，Partition的数量决定了task的数量，影响着程序的并行度，所以理解Partition是了解spark背后运行原理的第一步。Pa...

2019-08-12 15:48:48 186

原创 kafka各种shell操作

######################### 1、启动集群每个节点的进程 ###################################nohup kafka-server-start.sh /home/hadoop/apps/kafka_2.11-1.1.0/config/server.properties 1>~/kafkalogs/kafka_...

2019-08-11 16:09:43 115

转载数据仓库概念

转自：http://blog.csdn.net/zyj8170/article/details/52920021数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Supp...

2019-08-09 09:45:09 140

转载 Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数

特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数...

2019-08-08 10:52:12 86

转载 hive四种文件格式

Hive文件格式 hive文件存储格式包括以下几类：1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)其中TEXTFILE为默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理；SEQUENCEFILE，RCFILE，ORCFILE格式的表不能直接...

2019-08-07 15:39:24 580

转载 kafka HA ISR机制

...

2019-08-07 14:49:29 142

转载 zookeeper选举源码解析

&nbs...

2019-08-07 14:32:56 144

转载 Kafka史上最详细原理总结

<div id="post_detail"> Kafka史上最详细原理总结 KafkaKafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hado...

2019-08-07 10:30:29 150

qq_23596677的博客