转:关于解决数据倾斜的方案

  https://blog.csdn.net/lingbo229/article/details/82345991   http://www.aboutyun.com/thread-23803-1-1.html

2018-09-03 11:16:49

阅读数 63

评论数 0

转:Kafka史上最详细原理总结

https://blog.csdn.net/lingbo229/article/details/80761778?tdsourcetag=s_pctim_aiomsg

2018-08-21 11:13:59

阅读数 375

评论数 0

Hive 优化

1)优化的宏观角度        架构:这个是最重要的,是全局的        1. 分区表:线上环境是普遍存在的,数据量大,不做好合适的分区会导致查询性能极致下降        2. 合理利用中间结果集            说明:假如sql1子查询包含:select a,b,c,z from ...

2018-05-31 21:47:15

阅读数 111

评论数 0

Hive 内置函数和UDF函数

1)内置函数    hive> show functions;    // 显示所有函数,比官网详细    hive> desc function substr;    // 查看函数的详细信息    hive> desc func...

2018-05-30 21:27:57

阅读数 482

评论数 0

Hive HiveServer2使用

HiveServer2,即HS2。是一个服务1)开启HiveServer2    $HIVE_HOME/bin/hiveserver22)HiveServer2 配合 beeline 的用法    1.  $HIVE_HOME/config/beeline         !connect jdb...

2018-05-30 20:11:08

阅读数 320

评论数 0

Hive 分区

分区表:也是对应于HDFS上的文件夹1)静态分区    单级分区:CREATE TABLE ruoze_order_partition (                        order_number string,                        event_time s...

2018-05-30 19:28:59

阅读数 60

评论数 0

Hive DML操作(插入、导出、导入)

DML   Data Manipulation Language1)插入数据操作    1. LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename         [PARTITION (partcol1=val1...

2018-05-30 16:28:23

阅读数 80

评论数 0

Hive 数据类型及数据表操作

1) 数据类型    int    bigint   ===> long    float     double    string    boolean   TRUE/FALSE  ==> 生产用1/0替换,明显提升性能    date/timesta...

2018-05-28 23:56:27

阅读数 54

评论数 0

Hive 数据抽象及数据库操作

1)2)数据库操作     数据库:包含一系列的表,是对应HDFS上的一个文件夹,默认是/user/hive/warehouse    1. 创建数据库        CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name           ...

2018-05-27 17:15:27

阅读数 76

评论数 0

Hive 入门及环境搭建

1)Hive主要用途    解决海量结构化日志数据的统计文件,即离线统计分析2)架构图        HIVE本身就是一个客户端,不需要集群。    生产可以在几个hadoop机器上都配hive,目的不是集群,是几个节点都可以提交hive作业。    以上缺陷:MySQL单点故障3)Hive VS...

2018-05-27 15:15:45

阅读数 80

评论数 0

Kafka终极

Kafka 生产调优参数:Producer:  acks: all buffer.memory: 536870912 compression.type :snappy retries: 100        max.in.flight.requests.per.connection = 1 bat...

2018-05-24 23:25:46

阅读数 172

评论数 0

Hadoop 文件写流程

1)流程图    2)流程解读    1. 客户端执行命令(或者代码读取),调用的是dfs的create的方法,输入的是要上传的文件目录    2. NN会验证这个目录是否存在和是否有权限去创建。    3. 校验完成后,NN会创建一个空文件,还没有数据流和block映射关系,返回给一个FSDat...

2018-05-24 16:05:09

阅读数 74

评论数 0

Hadoop 文件读流程

1)流程图    2)流程解读    1. 客户端执行命令(或者代码读取),调用的是dfs的FileSystem.open的方法,open传的是文件路径     2. 根据文件路径去NN找,NN把block块和所在位置的信息的映射关系,返回给一个FSDataInoputStream的对象    3...

2018-05-24 15:07:24

阅读数 171

评论数 0

Hadoop 机架及副本策略

1)机架     1. rack机柜,每个机柜分别有各自的 IP 段        Q:企业里为什么要机架?        A:ip网段1挂了(一般整个机架全挂),网段2还能提供服务    2. 管理的机器有机架,为什么可以不使用?        因为使用的是刀片服务器,比如网段为:192.168...

2018-05-24 14:12:29

阅读数 598

评论数 0

(RDD)五大特性

1)RDD五大特性 *  - A list of partitions        每个RDD有一堆分区 *  - A function for computing each split        对于RDD做计算,其实是对于每个分区做相同的function *  - A list of d...

2018-05-20 19:45:58

阅读数 209

评论数 0

内存调优

使用SizeEstimator.estimate(RDD),可以实验出占多少内存,也可以知道广播出去的空间2)优化数据结构(Turning Data structures) ------ 非着重点The first way to reduce memory consumption is to av...

2018-05-15 14:32:12

阅读数 44

评论数 0

(RDD)Lineage 血缘关系 和 Dependence 依赖关系

1)Lineage 说明    Lineage  保存了RDD的依赖关系    如:有这样的依赖关系:A =map=> B =filter=>C            假设B的RDD某个分区挂了,就可以通过血缘关系重新计算map的函数获取回来      ...

2018-05-15 10:20:56

阅读数 1381

评论数 0

(RDD)Accumulators 计数器

1)说明    Accumulators are variables that are only “added” to through an associative and commutative operation and can therefore be efficiently support...

2018-05-14 23:46:39

阅读数 114

评论数 0

(RDD)Broadcast 广播变量

1)假设某个作业有10000个tasks,每个task上有100M的变量,这个数据是很可怕的    所以:10000tasks ==>100 executor    广播变量是广播到executor上的,每个executor上的所有task共享2)使用案例    map jo...

2018-05-14 23:40:20

阅读数 396

评论数 0

(RDD)Cache 缓存使用详解

CacheRDDA ==> RDDB ==> RDDC 对相同的RDD做action操作cache和persist的区别 cache lazyval map = ..... //100M10000tasks ==> ....M100...

2018-05-14 21:26:20

阅读数 1010

评论数 0

提示
确定要删除当前文章?
取消 删除