自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

流风雨情的博客

大道可期

  • 博客(13)
  • 资源 (40)
  • 收藏
  • 关注

转载 漫谈千亿级数据优化实践:数据倾斜

0x00 前言数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。郑重声明:话题比较大,技术要求也比较高,笔者尽最大的能力来写出自己的理解,写的不对和不好的地方大家一起交流。有些例子不是特别

2018-03-21 23:09:21 243

转载 控制Hive中Map和reduce的数量

一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划,执行计划以MapReduce的方式执行,那么结合数据和集群的大小,map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量,也要控制map和reduce的数量。1、map的数量,通常情况下和split的大小有关系,之前写的一篇blog“map和reduce的数量是如何定义...

2018-03-21 23:04:41 1601

原创 hive子查询sql效率优化

今天写了个sql跑了好久,老大过来一看指点下,多用子查询,多用where,然后在join, 提高十多倍,神奇了。想了想,还是老大经验丰富。如果先join,就全表扫描,然后最后where最后筛选,比较耗时。 如果用子查询,就可以利用where过滤不相关的字段,不但增加了map 数量,还减少了数据量。 以下是我的sql 对比:SELECT from_unixtime(cast(a.t...

2018-03-21 19:27:12 7987

原创 hive数据倾斜问题

关于数据倾斜问题的思考(本人小白,不是什么大牛,有什么不对的地方欢迎指正) 背景: 数据倾斜是大数据领域绕经常遇到的问题,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎,这也是大数据处理的一个隐形的bug。最近在用Hadoop跑批的时候经常遇到,一条hivesql要跑好久才能跑完。相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在...

2018-03-20 16:58:45 436

原创 hive sql

(SELECT u.id AS collector_id, u.name AS collector_name, t.name AS area_name FROM ods_collection.fdm_col_admin_user AS u LEFT JOIN (SELECT admin_user_id, mi...

2018-03-19 15:52:09 220

原创 使用hive过程中遇到的小问题

类型转换 cast(t.delay_days_v2 AS int) SELECT cast(t.delay_days_v2 AS int) AS delay_days_v2, t.product_type, count(DISTINCT t.order_id) AS count_order_id, sum(t.principal -t.repai...

2018-03-08 22:07:54 560

转载 为什么是hive

Hive最适合于数据仓库应用程序,使用该应用程序进行相关的静态数据分析,不需要快速响应给出结果,而且数据本身不会频繁变化。Hive不是一个完整的数据库。Hadoop以及HDFS的设计本身约束和局限性地限制了Hive所胜任的工作。其中最大的限制就是Hive不支持记录级别更新、插入、或者删除操作。但是用户可以通过查询生成新表或者将查询结果导入文件中。同时,因为Hadoop是一个面向批处理的系统,而...

2018-03-08 14:08:26 412

转载 Spring入门demo

(尊重劳动成果,转载请注明出处:http://blog.csdn.net/qq_25827845/article/details/53868594冷血之心的博客) 在MyEclipse中如何搭建spring开发环境?本文讲解一个入门级Demo,希望可以帮助更多的初学者。 1、首先新建一个Web项目Test_Spring,如图所示:  2、下载Spring的jar包,版本为spring-framew...

2018-03-06 22:45:24 251

原创 idea中出现 编译报错 javacTask:源发行版1.8 需要目标发行版1.8问题

Error:java: Compilation failed: internal java compiler errorInformation:java: javacTask: 源发行版 1.8 需要目标发行版 1.8Information:java: Errors occurred while compiling module 'algorithm'Information:javac 1....

2018-03-06 22:42:36 2034 1

原创 Linux shell命令关系运算符

以前老是记不住shell命令的运算符,后来看到一篇文章,还来就是英文单词:EQ 就是 EQUAL等于NE 就是 NOT EQUAL不等于 GT 就是 GREATER THAN大于  LT 就是 LESS THAN小于 GE 就是 GREATER THAN OR EQUAL 大于等于 LE 就是 LESS THAN OR EQUAL 小于等于mongodb的关系运...

2018-03-06 22:38:53 1390

原创 hive常用命令

1.建表 create table if not exists sdm_risk_flow(ID string, STATES string, ENABLED string, EVENT_ID string) partitioned by (dt string) row format delimited fields terminated by “\t ” STORED AS ORC⚠️...

2018-03-06 20:05:07 204

原创 Hive技巧-选出某些列其余所有的列

HIVE中select除了某些字段之外的剩余所有字段这是HIVE中查询语句的一个小技巧,一个表字段太多,我们想要除个别字段外的剩余所有字段,全部列出来看起来难受,实际上hive语句可以解决这个问题。Hive 0.13.0之后,select列表支持正则表达式了insert overwrite table tb2 partition(dt=xx, hr=xx) select * from ...

2018-03-06 19:10:18 9660 4

原创 hive脚本的执行方式大致有三种

hive脚本的执行方式大致有三种: 参考hive的用法:usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B ...

2018-03-02 11:54:40 9134

NTFS_for_Mac.dmg

### 背景 - 之前在公司的mbp上装了个破解版的,后来升级了10.15发现不能用了 - 最近买了块希捷的移动硬盘,说兼容Windows和Mac,支持NTFS 详情请看链接 https://shimo.im/docs/rCqhYyVhdqXKj63j/ 《NTFS_For_Mac_10.15_希捷官网正版永久免费》,可复制链接后用石墨文档 App 或小程序打开

2019-11-03

java并发编程实战pdf及源码

java并发编程实战pdf及源码

2017-07-12

jsp+servlet+mysql+购物商城项目代码 下载

jsp+servlet+mysql+购物商城

2017-06-27

图解机器学习

图解机器学习

2017-06-27

如何变得有思想 阮一峰博客文集_PDF电子书下载 带书签目录 高清完整版.pdf

如何变得有思想 阮一峰博客文集_PDF电子书下载 带书签目录 高清完整版.pdf

2017-06-25

json-lib-2.4-jdk15.jar所需全部JAR包

json-lib-2.4-jdk15.jar所需全部JAR包

2017-06-23

23种JAVA设计模式和15种J2EE设计模式-java学习的精髓

23种JAVA设计模式和15种J2EE设计模式-java学习的精髓

2017-06-22

黑客与画家中文版

黑客与画家

2017-06-22

深入浅出MyBatis技术原理与实战

随着大数据时代的到来,Java 持久层框架MyBatis 已经成为越来越多企业的选择。遗憾的是,时至今日国内依然没有一本讨论MyBatis 的书,这增加了初学者的学习难度,初学者往往只能基于零星的案例来学习MyBatis,无法系统地掌握MyBatis,更不用说精通了。《深入浅出MyBatis 技术原理与实战》是笔者通过大量实践和研究源码后创作而成的,是国内系统介绍MyBatis 著作的先河。, 《深入浅出MyBatis技术原理与实战》分为3 个部分,依次介绍了MyBatis 的基础应用、原理及插件开发、实践应用,使读者能够由浅入深、循序渐进地掌握MyBatis 技术。首先,《深入浅出MyBatis技术原理与实战》在官方API 的基础上完善了许多重要的论述和实例,并且给出了实操建议,帮助读者正确掌握MyBatis。其次,《深入浅出MyBatis技术原理与实战》详细讲述了MyBatis 的内部运行原理,并全面讨论了插件的开发。最后,本着学以致用的原则,笔者阐述了MyBatis-Spring 项目和一些MyBatis 开发常见的实例,使读者能够学得会,用得好。, 《深入浅出MyBatis技术原理与实战》不是一本味同嚼蜡的理论专著,而是一本MyBatis 的实践指南,无论你是Java 程序员、MyBatis开发者,还是Java 持久层框架的研究者,你都能从本书中收获知识。

2017-06-22

JAVA程序员面试宝典 第4版(带书签 高清扫描版)欧立奇

JAVA程序员面试宝典 第4版(带书签 高清扫描版)欧立奇

2017-06-22

[啊哈!算法].啊哈磊.扫描版

[啊哈!算法].啊哈磊

2017-06-22

算法的乐趣.pdf

算法的乐趣.pdf

2017-06-18

HBase权威指南

HBase权威指南

2017-06-18

JDK1.8 API 中文 谷歌翻译 java帮助文档1.8 google翻译

JDK1.8 API 中文 谷歌翻译 java帮助文档1.8 google翻译

2017-06-18

TortoiseSVN-1.9.5.27581-x64-svn-1.9.5 中文语言包(64位)

TortoiseSVN-1.9.5.27581-x64-svn-1.9.5 中文语言包(64位)

2017-06-18

算法图解图灵

算法图解

2017-06-18

图解性能优化

图解性能优化

2017-06-17

网络是怎样连接的_户根勤

网络是怎样连接的_户根勤

2017-06-17

计算机程序设计艺术(第3卷)

计算机程序设计艺术(第3卷)

2017-06-17

垃圾回收的算法与实现 高清

垃圾回收的算法与实现

2017-06-17

图解设计模式图灵 高清完整.pdf版

图解设计模式

2017-06-17

《Redis设计与实现》.(黄健宏).[PDF]

《Redis设计与实现》.(黄健宏).[PDF]

2017-06-17

分布式服务框架原理与实践_李林锋著 完整版

分布式服务框架原理与实践_李林锋著 完整版

2017-06-17

redis实战完成版

redis实战

2017-06-17

写给大忙人看的Java SE 8

写给大忙人看的Java SE 8

2017-06-17

pro git book

什么是版本控制?我为什么要关心它呢?版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。在本书所展示的例子中,我们仅对保存着软件源代码的文本文件作版本控制管理,但实际上,你可以对任何类型的文件进行版本控制。 如果你是位图形或网页设计师,可能会需要保存某一幅图片或页面布局文件的所有修订版本(这或许是你非常渴望拥有的功能)。采用版本控制系统(VCS)是个明智的选择。有了它你就可以将某个文件回溯到之前的状态,甚至将整个项目都回退到过去某个时间点的状态。你可以比较文件的变化细节,查出最后是谁修改了哪个地方,从而找出导致怪异问题出现的原因,又是谁在何时报告了某个功能缺陷等等。使用版本控制系统通常还意味着,就算你乱来一气把整个项目中的文件改的改删的删,你也照样可以轻松恢复到原先的样子。但额外增加的工作量却微乎其微。

2017-02-26

图解HTTP上野宣

图灵设计从书

2016-12-02

GitHub入门与实践.pdf 高清pdf

第 1 章:欢迎来到 GitHub 的世界 讲解 GitHub 是什么,以及有哪些革新之处。在开源软件的世界中, GitHub 为开发者带来了革命性的社会化编程概念。在这里我们将会接触 这一概念,并对其带来的优势与功能进行讲解。 第 2 章:Git 的导入 要使用 GitHub,离不开 Git 这一版本管理系统。本章将深入介绍关 于 Git 的知识,加深各位对 Git 的理解,同时说明实际操作的相关流程。 第 3 章:使用 GitHub 的前期准备 使用 GitHub 需要开设账户(免费),因此我们将按照顺序为您讲解 正式使用前需要进行的一系列设置。 另外,本章还会讲解包括操作示例在内的,实际在 GitHub 上创建 仓库并发布代码的相关流程。

2016-11-07

HTML5+jQuery制作温馨浪漫爱心表白动画特效

HTML5+jQuery制作温馨浪漫爱心表白动画特效

2016-10-29

基于struts2 的书籍信息管理系统

基于Struts 2实现简单的书籍信息管理功能,其中,模型 (M) 采用基于JDBC的DAO以及VO,视图 (V)采用基于Struts 2标签的JSP,控制 (C) 采用Action、拦截器等实现。 通过本次实验,了解在Eclipse+MyEclipse 8.5集成开发环境和Tomcat 6.0 、MySQL 6.0运行环境下,基于Struts 2进行简单Java Web应用的开发。

2016-10-23

servlet 中文API

这是一份关于2.1版Java Servlet API的说明文档,作为对这本文档的补充,你可以到http://java.sun.com/products/servlet/index.html下面下载Javadoc格式的文档。

2016-10-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除