- 博客(12)
- 资源 (7)
- 收藏
- 关注
转载 推荐使用maven shade进行打包,assembly打包会出现若干问题
现在基本上都是采用maven来进行开发管理,我有一个需求是需要把通过maven管理的java工程打成可执行的jar包,这样也就是说必需把工程依赖的jar包也一起打包。而使用maven默认的package命令构建的jar包中只包括了工程自身的class文件,并没有包括依赖的jar包。我们可以通过配置插件来对工程进行打包,pom具体配置如下:maven-assembly-plugin (使用此
2017-08-29 15:11:18 7938 3
转载 Spring如何加载XSD文件(org.xml.sax.SAXParseException: Failed to read schema document错误的解决方法)
本文原文连接: http://blog.csdn.net/bluishglc/article/details/7596118 ,转载请注明出处!有时候你会发现过去一直启动正常的系统,某天启动时会报出形如下面的错误:org.xml.sax.SAXParseException: schema_reference.4: Failed to read schema document 'ht
2017-08-29 15:04:11 232
转载 git github gitlab的区别
Git是一款自由和开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。Git - 版本控制工具Git是一个开源的分布式版本控制系统,用以有效、高速的处理从很小到非常大的项目版本管理。[4]Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。Torvalds 开始着手开发 Git 是为了作为一种过渡方案来替代
2017-08-25 14:47:09 1257
原创 HIVE的动态分区插入
一:以前版本的分区插入如下代码所示FROM page_view_stg pvsINSERT OVERWRITE TABLE page_view PARTITION(dt='2008-06-08', country='US') SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, null, null,
2017-08-24 17:53:55 1819
原创 HIVE beeline使用shell 批量执行sql语句
shell脚本如图所示:principal:代表的是认证方式#!/bin/sh#--------------------------------------------#Date:#Author:#------------------------------------------------#########################################
2017-08-24 11:56:35 30221 1
转载 HIVE数据倾斜问题
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的
2017-08-22 19:18:50 235
转载 HIVE SQL执行计划深度解析
美团网技术陈纯大作,值得拥有。Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hiv
2017-08-22 19:16:10 1855
转载 HIVE group by 和count(distinct)进行对比
Hive去重统计相信使用Hive的人平时会经常用到去重统计之类的吧,但是好像平时很少关注这个去重的性能问题,但是当一个表的数据量非常大的时候,会发现一个简单的count(distinct order_no)这种语句跑的特别慢,和直接运行count(order_no)的时间差了很多,于是研究了一下。先说结论:能使用group by代替distinc就不要使用distinct,例子:实际论
2017-08-22 18:55:41 4211 1
转载 hive 中的map join 操作
今天遇到一个Hive的问题,如下hive sql:select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。
2017-08-22 17:38:14 13854
转载 海量数据处理经典实例
top K问题在大规模数据处理中,经常会遇到的一类问题:在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被称为top K问题。例如,在搜索引擎中,统计搜索最热门的10个查询词;在歌曲库中统计下载率最高的前10首歌等。针对top K类问题,通常比较好的方案是分治+Trie树/hash+小顶堆,即先将数据集按照Hash方法分解成多个小数据集,然后使用Tr
2017-08-07 18:13:00 398
转载 Oracle中常用的数据字典
一、Oracle数据字典 数据字典是oracle存放有关数据库信息的地方,其用途是用来描述数据的。比如一个表的创建者信息,创建时间信息,所属表空间信息,用户访问权限信息等。当用户在对数据库中的数据进行操作时遇到困难就可以访问数据字典来查看详细的信息。 Oracle中的数据字典有静态和动态之分。静态数据字典主要是在用户访问数据字典时不会发生改变的,但动态数据字典是依赖数据库运行的性能
2017-08-07 18:00:40 292
转载 Oracle的merge into
http://blog.csdn.net/yuzhic/article/details/1896878http://blog.csdn.net/macle2010/article/details/5980965该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中,使用此命令必须同时指定UPDATE 和INSERT 关键词,ORACLE 10g 做了
2017-08-03 11:15:11 184
STM32F103ZET6原理图引脚封装
2016-04-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人