2017年08月_weifengLD

12月 11月 10月 09月 08月 07月 05月

转载推荐使用maven shade进行打包，assembly打包会出现若干问题

现在基本上都是采用maven来进行开发管理，我有一个需求是需要把通过maven管理的java工程打成可执行的jar包，这样也就是说必需把工程依赖的jar包也一起打包。而使用maven默认的package命令构建的jar包中只包括了工程自身的class文件，并没有包括依赖的jar包。我们可以通过配置插件来对工程进行打包，pom具体配置如下：maven-assembly-plugin (使用此

2017-08-29 15:11:18 7937 3

转载 Spring如何加载XSD文件(org.xml.sax.SAXParseException: Failed to read schema document错误的解决方法)

本文原文连接: http://blog.csdn.net/bluishglc/article/details/7596118 ,转载请注明出处！有时候你会发现过去一直启动正常的系统，某天启动时会报出形如下面的错误：org.xml.sax.SAXParseException: schema_reference.4: Failed to read schema document 'ht

2017-08-29 15:04:11 231

转载 git github gitlab的区别

Git是一款自由和开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目。Git - 版本控制工具Git是一个开源的分布式版本控制系统，用以有效、高速的处理从很小到非常大的项目版本管理。[4]Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。Torvalds 开始着手开发 Git 是为了作为一种过渡方案来替代

2017-08-25 14:47:09 1253

原创 HIVE的动态分区插入

一：以前版本的分区插入如下代码所示FROM page_view_stg pvsINSERT OVERWRITE TABLE page_view PARTITION(dt='2008-06-08', country='US') SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, null, null,

2017-08-24 17:53:55 1819

原创 HIVE beeline使用shell 批量执行sql语句

shell脚本如图所示：principal：代表的是认证方式#!/bin/sh#--------------------------------------------#Date:#Author:#------------------------------------------------#########################################

2017-08-24 11:56:35 30216 1

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2017-08-22 19:18:50 235

转载 HIVE SQL执行计划深度解析

美团网技术陈纯大作，值得拥有。Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于hive搭建，每天执行近万次的Hive ETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力，在解决这些问题的同时我们对Hiv

2017-08-22 19:16:10 1855

转载 HIVE group by 和count(distinct)进行对比

Hive去重统计相信使用Hive的人平时会经常用到去重统计之类的吧，但是好像平时很少关注这个去重的性能问题，但是当一个表的数据量非常大的时候，会发现一个简单的count(distinct order_no)这种语句跑的特别慢，和直接运行count(order_no)的时间差了很多，于是研究了一下。先说结论:能使用group by代替distinc就不要使用distinct，例子：实际论

2017-08-22 18:55:41 4209 1

转载 hive 中的map join 操作

今天遇到一个Hive的问题，如下hive sql：select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录，A表只有100行记录，而且B表中数据倾斜特别严重，有一个key上有15亿行记录，在运行过程中特别的慢，而且在reduece的过程中遇有内存不够而报错。

2017-08-22 17:38:14 13853

转载海量数据处理经典实例

top K问题在大规模数据处理中，经常会遇到的一类问题：在海量数据中找出出现频率最高的前K个数，或者从海量数据中找出最大的前K个数，这类问题通常被称为top K问题。例如，在搜索引擎中，统计搜索最热门的10个查询词；在歌曲库中统计下载率最高的前10首歌等。针对top K类问题，通常比较好的方案是分治+Trie树/hash+小顶堆，即先将数据集按照Hash方法分解成多个小数据集，然后使用Tr

2017-08-07 18:13:00 398

转载 Oracle中常用的数据字典

一、Oracle数据字典　　数据字典是oracle存放有关数据库信息的地方，其用途是用来描述数据的。比如一个表的创建者信息，创建时间信息，所属表空间信息，用户访问权限信息等。当用户在对数据库中的数据进行操作时遇到困难就可以访问数据字典来查看详细的信息。　　Oracle中的数据字典有静态和动态之分。静态数据字典主要是在用户访问数据字典时不会发生改变的，但动态数据字典是依赖数据库运行的性能

2017-08-07 18:00:40 292

转载 Oracle的merge into

http://blog.csdn.net/yuzhic/article/details/1896878http://blog.csdn.net/macle2010/article/details/5980965该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSERT 关键词,ORACLE 10g 做了

2017-08-03 11:15:11 184

虚拟机内存工作原理

虚拟机内存的工作原理，在使用虚拟机的时候，需要了解虚拟机是如何进行运行的

2018-09-01

ST32F103VET6 100PIN原理图引脚封装

100PIN，节约硬件工程师的时间

2016-04-17

STM32F103ZET6原理图引脚封装

STM32F103ZET6原理图下载地址，需要的童鞋赶快行动哦，好资源不容错过！ 144引脚，节约硬件工程师的时间此原理图为STM32F103ZET6最小系统板电路，包含原理图、PCB图等。全部引脚已经引出，使用方便

2016-04-17

STM32固件函数库

STM32固件函数库，非常实用，开发者必备的案头资料

2014-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

u013385925的专栏