lpxuan-CSDN博客

原创 hive-udf案例

--指数化处理热度*(π-1.8)，然后四舍五入后分段分段规则:【<=50(1/段),>50&<=100(10/段),>100&<=1000(30/段),>1000&<=5000(100/段),>5000（1000/段）】向上取段结果在50以下的，每1为一个段结果在50-100之间的，每10为一个段， ...

2019-04-29 11:48:05 589

原创 Python多线程

Python多线程目的：（1）了解python线程执行原理。（2）掌握多线程编程与线程同步。（3）了解线程池的使用线程基本概念线程是指进程内的一个执行单元,也是进程内的可调度实体。与进程的区别：（1）地址空间：进程内的一个执行单元；进程至少有一个线程；它们共享进程的地址空间；而进程有自己独立的地址空间。（2）资源拥有：进程是资源分配和拥有的单位，同一个进程内的线程共享进程的资源。...

2019-04-28 21:05:21 185

Hadoop在运行一个mapreduce job之前，需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数，当一个job提交时，jobclient首先分析job被拆分的split数量，然后吧job.split文件放置在HDFS中，一个job的MapTask数量就等于split的个数。 job.split中包含split的个数由FileInputFor...

2019-03-25 11:45:15 922

原创 hive源码解析（2）之编译前序

Antlr(ANother Tool for LanguageRecognition) ü一种语言识别工具 üAntlr提供了一种语言工具框架 ü定义标示符，关键字（词法分析） ü定义表达式(语法分析) ü可以将文本转换成抽象语法树（AST) ü树的解析（树分析器）（1）词法分析器Lexer ü词法分析识别的是...

2019-03-25 11:43:27 222

原创 hive源码解析（1）之hive执行过程

1.入口/bin/cli.sh 调用CliDriver类进行初始化过程 Ø处理 -e， -f，-h等信息，如果是-h，打印提示信息，并退出 Ø读取hive的配置文件，设置HiveConf Ø创建一个控制台，进入交互模式 2.在交互方式下，读取每一个输命令行，直到’;’为止，然后提交给processLine(cmd)方法处理，该方法将输入的流以;分割成多个...

2019-03-25 11:42:16 1377

原创 hive中间接实现不等值连接

由于hive中不支持不等值连接，给应用带来不便。 create tablelpx_test_a as select id,class from ( select 1 as id, 2 asclass from dual union all select 2 as id, 3 asclass from dual union all select 3 as id, 4 asclass...

2019-03-25 11:39:27 2123

原创 Hadoop计算文件大小

//Hadoop计算文件大小: publicstaticvoidmain(String[]args)throwsIOException{ StringtablePath=pathPrefix+args[0].toLowerCase().trim(); Pathp=newPath(tablePath); JobConfconf...

2019-03-25 11:38:49 1318

原创 Hive优化（5）之选择合适的map数

Hive是基于Hadoop分布式框架下的数据仓库解决方案，可以方便地对数据进行清洗、转化和加载。Hive处理海量数据是数据仓库的基本需求，而如何通过hive充分利用Hadoop集群的分布式并行功能就至关重要。如果不能充分利用分布式并行处理，那么处理大数据量就会变得低效。而一张数据表需要多少个map来处理和一个map处理多少数据记录，都会影响到海量数据处理的效率。 -----------------...

2019-03-25 11:37:57 348

原创 Hive优化（3）之随机数避免数据倾斜

发生数据倾斜时，通常的现象是：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或group by或distinct的key分布不均导致的，大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如...

2019-03-25 11:37:07 1749

原创 Hive优化（2）之系统评估reduce数为1的MR Job优化

名词解释：云霄飞车：hive本身对MR Job的 reduce数估算不合理，导致reduce分配过少，任务运行很慢，云霄飞车项目主要对hive本身reduce数的估算进行优化。 map_input_bytes：map输入文件大小，单位：bytes map_output_bytes：map输出文件大小，单位：bytes 优化背景：云霄飞车一期存在如下问题：只能优化reduce数&...

2019-03-25 11:36:05 905