qq_30130043
码龄10年
关注
提问 私信
  • 博客:25,003
    25,003
    总访问量
  • 27
    原创
  • 2,189,148
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2015-07-26
博客简介:

qq_30130043的博客

查看详细资料
个人成就
  • 获得1次点赞
  • 内容获得4次评论
  • 获得10次收藏
创作历程
  • 49篇
    2018年
成就勋章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

转:关于解决数据倾斜的方案

 https://blog.csdn.net/lingbo229/article/details/82345991 http://www.aboutyun.com/thread-23803-1-1.html
转载
发布博客 2018.09.03 ·
242 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

转:Kafka史上最详细原理总结

https://blog.csdn.net/lingbo229/article/details/80761778?tdsourcetag=s_pctim_aiomsg
转载
发布博客 2018.08.21 ·
593 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive 优化

1)优化的宏观角度        架构:这个是最重要的,是全局的        1. 分区表:线上环境是普遍存在的,数据量大,不做好合适的分区会导致查询性能极致下降        2. 合理利用中间结果集            说明:假如sql1子查询包含:select a,b,c,z from xxx group ...                       假如sql2子查询包含:sel...
原创
发布博客 2018.05.31 ·
344 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive 内置函数和UDF函数

1)内置函数    hive> show functions;    // 显示所有函数,比官网详细    hive> desc function substr;    // 查看函数的详细信息    hive> desc function extended substr;    // 查看函数的更详细信息,包括语法(substr的pos从1开始,<0是从尾开始)2)UDF...
原创
发布博客 2018.05.30 ·
1418 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive HiveServer2使用

HiveServer2,即HS2。是一个服务1)开启HiveServer2    $HIVE_HOME/bin/hiveserver22)HiveServer2 配合 beeline 的用法    1.  $HIVE_HOME/config/beeline         !connect jdbc:hive2://localhost:10000 user password(10000就是HS2的...
原创
发布博客 2018.05.30 ·
807 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive 分区

分区表:也是对应于HDFS上的文件夹1)静态分区    单级分区:CREATE TABLE ruoze_order_partition (                        order_number string,                        event_time string                     ) PARTITIONED BY (event_m...
原创
发布博客 2018.05.30 ·
171 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive DML操作(插入、导出、导入)

DML   Data Manipulation Language1)插入数据操作    1. LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename         [PARTITION (partcol1=val1, partcol2=val2 ...)]    // 插入            OVERWRITE...
原创
发布博客 2018.05.30 ·
236 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive 数据类型及数据表操作

1) 数据类型    int    bigint   ===> long    float     double    string    boolean   TRUE/FALSE  ==> 生产用1/0替换,明显提升性能    date/timestamp   用string替换     decimal    精度很高,银行用到    生产上基本就用这两大类:数值/字符串  数值用于...
原创
发布博客 2018.05.28 ·
265 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive 数据抽象及数据库操作

1)2)数据库操作     数据库:包含一系列的表,是对应HDFS上的一个文件夹,默认是/user/hive/warehouse    1. 创建数据库        CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name            [COMMENT database_comment]            [LOCATION hd...
原创
发布博客 2018.05.27 ·
271 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive 入门及环境搭建

1)Hive主要用途    解决海量结构化日志数据的统计文件,即离线统计分析2)架构图        HIVE本身就是一个客户端,不需要集群。    生产可以在几个hadoop机器上都配hive,目的不是集群,是几个节点都可以提交hive作业。    以上缺陷:MySQL单点故障3)Hive VS RDBMS    1)都是使用sql来查询的    2)实时性:RDBMS实行性高(延时短),Hiv...
原创
发布博客 2018.05.27 ·
321 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Kafka终极

Kafka 生产调优参数:Producer:  acks: all buffer.memory: 536870912 compression.type :snappy retries: 100        max.in.flight.requests.per.connection = 1 batch.size: 10000 字节 不是条数        max.request.size = 20...
原创
发布博客 2018.05.24 ·
1591 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop 文件写流程

1)流程图    2)流程解读    1. 客户端执行命令(或者代码读取),调用的是dfs的create的方法,输入的是要上传的文件目录    2. NN会验证这个目录是否存在和是否有权限去创建。    3. 校验完成后,NN会创建一个空文件,还没有数据流和block映射关系,返回给一个FSDataOutputStream的对象    4. 客户端调用write方法,将数据流一个一个块地写入   ...
原创
发布博客 2018.05.24 ·
290 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Hadoop 文件读流程

1)流程图2)流程解读 1. 客户端执行命令(或者代码读取),调用的是dfs的FileSystem.open的方法,open传的是文件路径 2. 根据文件路径去NN找,NN把block块和所在位置的信息的映射关系,返回给一个FSDataInoputStream的对象 3. 客户端拿到FSDataInoputStream对象(即block块地址列表),根据最近的网段去循环...
原创
发布博客 2018.05.24 ·
444 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Hadoop 机架及副本策略

1)机架     1. rack机柜,每个机柜分别有各自的 IP 段        Q:企业里为什么要机架?        A:ip网段1挂了(一般整个机架全挂),网段2还能提供服务    2. 管理的机器有机架,为什么可以不使用?        因为使用的是刀片服务器,比如网段为:192.168.138.xxx,可以跟256个机器            假如五台刀片服务器:192.168.138...
原创
发布博客 2018.05.24 ·
1079 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

(RDD)五大特性

1)RDD五大特性 *  - A list of partitions        每个RDD有一堆分区 *  - A function for computing each split        对于RDD做计算,其实是对于每个分区做相同的function *  - A list of dependencies on other RDDs        RDD之类是有依赖关系的;RDDA ...
原创
发布博客 2018.05.20 ·
508 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

内存调优

使用SizeEstimator.estimate(RDD),可以实验出占多少内存,也可以知道广播出去的空间2)优化数据结构(Turning Data structures) ------ 非着重点The first way to reduce memory consumption is to avoid the Java features that add overhead, such as po...
原创
发布博客 2018.05.15 ·
363 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

(RDD)Lineage 血缘关系 和 Dependence 依赖关系

1)Lineage 说明    Lineage  保存了RDD的依赖关系    如:有这样的依赖关系:A =map=> B =filter=>C            假设B的RDD某个分区挂了,就可以通过血缘关系重新计算map的函数获取回来            即:一个RDD是如何从父RDD计算过来的 2)假如某RDD的分区是通过几个分区reducebykey算出来的,这时候得几个...
原创
发布博客 2018.05.15 ·
3291 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

(RDD)Accumulators 计数器

1)说明    Accumulators are variables that are only “added” to through an associative and commutative operation and can therefore be efficiently supported in parallel. They can be used to implement count...
原创
发布博客 2018.05.14 ·
458 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

(RDD)Broadcast 广播变量

1)假设某个作业有10000个tasks,每个task上有100M的变量,这个数据是很可怕的    所以:10000tasks ==>100 executor    广播变量是广播到executor上的,每个executor上的所有task共享2)使用案例    map join    把小表的数据广播出去    BroadcastJoin = MapJoin 3)说明    Broadca...
原创
发布博客 2018.05.14 ·
1225 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

(RDD)Cache 缓存使用详解

CacheRDDA ==> RDDB ==> RDDC 对相同的RDD做action操作cache和persist的区别 cache lazyval map = ..... //100M10000tasks ==> ....M100 executor BroadcastJoin = MapJoin  read-only     Lineage  血缘关系/血统A =map=&gt...
原创
发布博客 2018.05.14 ·
2801 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多