- 博客(13)
- 资源 (40)
- 收藏
- 关注
转载 漫谈千亿级数据优化实践:数据倾斜
0x00 前言数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。郑重声明:话题比较大,技术要求也比较高,笔者尽最大的能力来写出自己的理解,写的不对和不好的地方大家一起交流。有些例子不是特别
2018-03-21 23:09:21 243
转载 控制Hive中Map和reduce的数量
一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划,执行计划以MapReduce的方式执行,那么结合数据和集群的大小,map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量,也要控制map和reduce的数量。1、map的数量,通常情况下和split的大小有关系,之前写的一篇blog“map和reduce的数量是如何定义...
2018-03-21 23:04:41 1601
原创 hive子查询sql效率优化
今天写了个sql跑了好久,老大过来一看指点下,多用子查询,多用where,然后在join, 提高十多倍,神奇了。想了想,还是老大经验丰富。如果先join,就全表扫描,然后最后where最后筛选,比较耗时。 如果用子查询,就可以利用where过滤不相关的字段,不但增加了map 数量,还减少了数据量。 以下是我的sql 对比:SELECT from_unixtime(cast(a.t...
2018-03-21 19:27:12 7987
原创 hive数据倾斜问题
关于数据倾斜问题的思考(本人小白,不是什么大牛,有什么不对的地方欢迎指正) 背景: 数据倾斜是大数据领域绕经常遇到的问题,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎,这也是大数据处理的一个隐形的bug。最近在用Hadoop跑批的时候经常遇到,一条hivesql要跑好久才能跑完。相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在...
2018-03-20 16:58:45 436
原创 hive sql
(SELECT u.id AS collector_id, u.name AS collector_name, t.name AS area_name FROM ods_collection.fdm_col_admin_user AS u LEFT JOIN (SELECT admin_user_id, mi...
2018-03-19 15:52:09 220
原创 使用hive过程中遇到的小问题
类型转换 cast(t.delay_days_v2 AS int) SELECT cast(t.delay_days_v2 AS int) AS delay_days_v2, t.product_type, count(DISTINCT t.order_id) AS count_order_id, sum(t.principal -t.repai...
2018-03-08 22:07:54 560
转载 为什么是hive
Hive最适合于数据仓库应用程序,使用该应用程序进行相关的静态数据分析,不需要快速响应给出结果,而且数据本身不会频繁变化。Hive不是一个完整的数据库。Hadoop以及HDFS的设计本身约束和局限性地限制了Hive所胜任的工作。其中最大的限制就是Hive不支持记录级别更新、插入、或者删除操作。但是用户可以通过查询生成新表或者将查询结果导入文件中。同时,因为Hadoop是一个面向批处理的系统,而...
2018-03-08 14:08:26 412
转载 Spring入门demo
(尊重劳动成果,转载请注明出处:http://blog.csdn.net/qq_25827845/article/details/53868594冷血之心的博客) 在MyEclipse中如何搭建spring开发环境?本文讲解一个入门级Demo,希望可以帮助更多的初学者。 1、首先新建一个Web项目Test_Spring,如图所示: 2、下载Spring的jar包,版本为spring-framew...
2018-03-06 22:45:24 251
原创 idea中出现 编译报错 javacTask:源发行版1.8 需要目标发行版1.8问题
Error:java: Compilation failed: internal java compiler errorInformation:java: javacTask: 源发行版 1.8 需要目标发行版 1.8Information:java: Errors occurred while compiling module 'algorithm'Information:javac 1....
2018-03-06 22:42:36 2034 1
原创 Linux shell命令关系运算符
以前老是记不住shell命令的运算符,后来看到一篇文章,还来就是英文单词:EQ 就是 EQUAL等于NE 就是 NOT EQUAL不等于 GT 就是 GREATER THAN大于 LT 就是 LESS THAN小于 GE 就是 GREATER THAN OR EQUAL 大于等于 LE 就是 LESS THAN OR EQUAL 小于等于mongodb的关系运...
2018-03-06 22:38:53 1390
原创 hive常用命令
1.建表 create table if not exists sdm_risk_flow(ID string, STATES string, ENABLED string, EVENT_ID string) partitioned by (dt string) row format delimited fields terminated by “\t ” STORED AS ORC⚠️...
2018-03-06 20:05:07 204
原创 Hive技巧-选出某些列其余所有的列
HIVE中select除了某些字段之外的剩余所有字段这是HIVE中查询语句的一个小技巧,一个表字段太多,我们想要除个别字段外的剩余所有字段,全部列出来看起来难受,实际上hive语句可以解决这个问题。Hive 0.13.0之后,select列表支持正则表达式了insert overwrite table tb2 partition(dt=xx, hr=xx) select * from ...
2018-03-06 19:10:18 9660 4
原创 hive脚本的执行方式大致有三种
hive脚本的执行方式大致有三种: 参考hive的用法:usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B ...
2018-03-02 11:54:40 9134
NTFS_for_Mac.dmg
2019-11-03
深入浅出MyBatis技术原理与实战
2017-06-22
TortoiseSVN-1.9.5.27581-x64-svn-1.9.5 中文语言包(64位)
2017-06-18
pro git book
2017-02-26
GitHub入门与实践.pdf 高清pdf
2016-11-07
基于struts2 的书籍信息管理系统
2016-10-23
servlet 中文API
2016-10-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人