大数据处理
lpxuan
这个作者很懒,什么都没留下…
展开
-
HIVE-UDF之MD5密钥算法实现
/*** Project: UDFTest** File Created at 2012-11-28* $Id$** All rights reserved.** This software is the confidential and proprietary information of* XXX Company. ("Confidential Info...原创 2019-03-25 11:30:28 · 1908 阅读 · 0 评论 -
Hadoop如何计算map数和reduce数
Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数,当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。job.split中包含split的个数由FileInputFor...原创 2019-03-25 11:45:15 · 879 阅读 · 0 评论 -
hive源码解析(2)之编译前序
Antlr(ANother Tool for LanguageRecognition)ü一种语言识别工具üAntlr提供了一种语言工具框架ü定义标示符,关键字(词法分析)ü定义表达式(语法分析)ü可以将文本转换成抽象语法树(AST)ü树的解析(树分析器)(1)词法分析器Lexerü词法分析识别的是...原创 2019-03-25 11:43:27 · 177 阅读 · 0 评论 -
hive源码解析(1)之hive执行过程
1.入口/bin/cli.sh调用CliDriver类进行初始化过程Ø处理 -e, -f,-h等信息,如果是-h,打印提示信息,并退出Ø读取hive的配置文件,设置HiveConfØ创建一个控制台,进入交互模式2.在交互方式下,读取每一个输命令行,直到’;’为止,然后提交给processLine(cmd)方法处理,该方法将输入的流以;分割成多个...原创 2019-03-25 11:42:16 · 1346 阅读 · 0 评论 -
hive中间接实现不等值连接
由于hive中不支持不等值连接,给应用带来不便。create tablelpx_test_a asselect id,classfrom (select 1 as id, 2 asclass from dualunion allselect 2 as id, 3 asclass from dualunion allselect 3 as id, 4 asclass...原创 2019-03-25 11:39:27 · 2083 阅读 · 0 评论 -
Hadoop计算文件大小
//Hadoop计算文件大小:publicstaticvoidmain(String[]args)throwsIOException{StringtablePath=pathPrefix+args[0].toLowerCase().trim();Pathp=newPath(tablePath);JobConfconf...原创 2019-03-25 11:38:49 · 1294 阅读 · 0 评论 -
Hive优化(5)之选择合适的map数
Hive是基于Hadoop分布式框架下的数据仓库解决方案,可以方便地对数据进行清洗、转化和加载。Hive处理海量数据是数据仓库的基本需求,而如何通过hive充分利用Hadoop集群的分布式并行功能就至关重要。如果不能充分利用分布式并行处理,那么处理大数据量就会变得低效。而一张数据表需要多少个map来处理和一个map处理多少数据记录,都会影响到海量数据处理的效率。-----------------...原创 2019-03-25 11:37:57 · 332 阅读 · 0 评论 -
Hive优化(3)之随机数避免数据倾斜
发生数据倾斜时,通常的现象是:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或group by或distinct的key分布不均导致的,大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如...原创 2019-03-25 11:37:07 · 1705 阅读 · 0 评论 -
Hive优化(2)之系统评估reduce数为1的MR Job优化
名词解释:云霄飞车:hive本身对MR Job的 reduce数估算不合理,导致reduce分配过少,任务运行很慢,云霄飞车项目主要对hive本身reduce数的估算进行优化。map_input_bytes:map输入文件大小,单位:bytesmap_output_bytes:map输出文件大小,单位:bytes优化背景:云霄飞车一期存在如下问题:只能优化reduce数&...原创 2019-03-25 11:36:05 · 859 阅读 · 0 评论 -
hive优化(1)之mapjoin
hive> create table lpx_mapjoin as> SELECT '2012-04-17' as stat_date>,b.admin_member_id>,a.category_level2_id>,b.keywords>,sum...原创 2019-03-25 11:32:13 · 478 阅读 · 0 评论 -
hive-udf案例
--指数化处理热度*(π-1.8),然后四舍五入后分段 分段规则:【<=50(1/段),>50&<=100(10/段),>100&<=1000(30/段),>1000&<=5000(100/段),>5000(1000/段)】向上取段结果在50以下的 ,每1为一个段结果在50-100之间的,每10为一个段,...原创 2019-04-29 11:48:05 · 565 阅读 · 0 评论