自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 hive-udf案例

--指数化处理热度*(π-1.8),然后四舍五入后分段 分段规则:【<=50(1/段),>50&<=100(10/段),>100&<=1000(30/段),>1000&<=5000(100/段),>5000(1000/段)】向上取段结果在50以下的 ,每1为一个段结果在50-100之间的,每10为一个段,...

2019-04-29 11:48:05 540

原创 Python多线程

Python多线程目的:(1)了解python线程执行原理。(2)掌握多线程编程与线程同步。(3)了解线程池的使用线程基本概念线程是指进程内的一个执行单元,也是进程内的可调度实体。与进程的区别:(1) 地址空间:进程内的一个执行单元;进程至少有一个线程;它们共享进程的地址空间;而进程有自己独立的地址空间。(2)资源拥有:进程是资源分配和拥有的单位,同一个进程内的线程共享进程的资源。...

2019-04-28 21:05:21 136

原创 Hadoop如何计算map数和reduce数

Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数,当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。job.split中包含split的个数由FileInputFor...

2019-03-25 11:45:15 840

原创 hive源码解析(2)之编译前序

Antlr(ANother Tool for LanguageRecognition)ü一种语言识别工具üAntlr提供了一种语言工具框架ü定义标示符,关键字(词法分析)ü定义表达式(语法分析)ü可以将文本转换成抽象语法树(AST)ü树的解析(树分析器)(1)词法分析器Lexerü词法分析识别的是...

2019-03-25 11:43:27 157

原创 hive源码解析(1)之hive执行过程

1.入口/bin/cli.sh调用CliDriver类进行初始化过程Ø处理 -e, -f,-h等信息,如果是-h,打印提示信息,并退出Ø读取hive的配置文件,设置HiveConfØ创建一个控制台,进入交互模式2.在交互方式下,读取每一个输命令行,直到’;’为止,然后提交给processLine(cmd)方法处理,该方法将输入的流以;分割成多个...

2019-03-25 11:42:16 1305

原创 hive中间接实现不等值连接

由于hive中不支持不等值连接,给应用带来不便。create tablelpx_test_a asselect id,classfrom (select 1 as id, 2 asclass from dualunion allselect 2 as id, 3 asclass from dualunion allselect 3 as id, 4 asclass...

2019-03-25 11:39:27 2047

原创 Hadoop计算文件大小

//Hadoop计算文件大小:publicstaticvoidmain(String[]args)throwsIOException{StringtablePath=pathPrefix+args[0].toLowerCase().trim();Pathp=newPath(tablePath);JobConfconf...

2019-03-25 11:38:49 1257

原创 Hive优化(5)之选择合适的map数

Hive是基于Hadoop分布式框架下的数据仓库解决方案,可以方便地对数据进行清洗、转化和加载。Hive处理海量数据是数据仓库的基本需求,而如何通过hive充分利用Hadoop集群的分布式并行功能就至关重要。如果不能充分利用分布式并行处理,那么处理大数据量就会变得低效。而一张数据表需要多少个map来处理和一个map处理多少数据记录,都会影响到海量数据处理的效率。-----------------...

2019-03-25 11:37:57 317

原创 Hive优化(3)之随机数避免数据倾斜

发生数据倾斜时,通常的现象是:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或group by或distinct的key分布不均导致的,大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如...

2019-03-25 11:37:07 1651

原创 Hive优化(2)之系统评估reduce数为1的MR Job优化

名词解释:云霄飞车:hive本身对MR Job的 reduce数估算不合理,导致reduce分配过少,任务运行很慢,云霄飞车项目主要对hive本身reduce数的估算进行优化。map_input_bytes:map输入文件大小,单位:bytesmap_output_bytes:map输出文件大小,单位:bytes优化背景:云霄飞车一期存在如下问题:只能优化reduce数&...

2019-03-25 11:36:05 805

原创 hive优化(1)之mapjoin

hive> create table lpx_mapjoin as> SELECT '2012-04-17' as stat_date>,b.admin_member_id>,a.category_level2_id>,b.keywords>,sum...

2019-03-25 11:32:13 459

原创 HIVE-UDF之MD5密钥算法实现

/*** Project: UDFTest** File Created at 2012-11-28* $Id$** All rights reserved.** This software is the confidential and proprietary information of* XXX Company. ("Confidential Info...

2019-03-25 11:30:28 1886

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除