2021年04月_程研板

原创 Spark core算子的一点小总结

scala> val inputRDD1 = sc.parallelize(Array[(Int, Char)]( | (1, 'a'), (2, 'b'), (3, 'c'), (4, 'd'), (5, 'e'), (3, 'f'), (2, 'g'), (1, 'h'), (2, 'i') | ), 3)inputRDD1: org.apache.spark.rdd.RDD[(Int, Char)] = ParallelCollectionRDD[13]

2021-04-29 16:29:50 114 1

原创 Hive性能调优(四)——如何解决数据倾斜问题

2021-04-24 12:52:01 218 2

原创 Hive性能调优(三)——通过Yarn WebUI来定位性能瓶颈

2021-04-22 15:35:20 923 3

原创大数据中各种压缩格式性能对比

2021-04-20 18:07:57 670 3

原创 Hive性能调优(二)——一文搞懂HiveSQL执行计划

测试的数据请看上一篇博客，数据行数500万。目录一.简单SQL的执行计划二.带普通函数SQL的执行计划三.带聚合函数SQL的执行计划四.带窗口函数SQL的执行计划五.表连接的SQL的执行计划一.简单SQL的执行计划explain select s_age,s_scorefrom student_tb_seqwhere s_age=20;+----------------------------------------------------+--+| .

2021-04-18 16:34:03 1007

原创 Hive性能调优(一)——不同数据格式对Hive性能的影响

目录一.数据生成二.数据准备三.性能测试四.原因分析一.数据生成# coding: utf-8import randomimport datetimeimport importlibimport sysimportlib.reload(sys)# lastname和first都是为了来随机构造名称lastname = u"赵李周吴郑王冯陈褚卫蒋沈韩杨朱秦尤许何吕施张孔曹严华金魏陶姜戚谢邹喻柏水窦章云苏潘葛奚范彭郎鲁韦昌马苗"firstname = u"红尘冷暖岁月清浅仓促间遗落一地如诗

2021-04-17 11:38:51 567

原创日志方面的常见问题及log4j的使用

目录一.MapReduce和Spark的日志MapReduceSpark二.自定义的日志三.参考文章一.MapReduce和Spark的日志MapReduceMapReduce在IDEA上并没有运行日志，只能去UI上查看log。则需要借助 log4j 来查看日志。log4j.properties:log4j.rootLogger=INFO,stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.s

2021-04-13 11:33:58 335

原创关于MapReduce的一些面试题

目录一.MapReduce的执行过程二.其实并不简单的WordCount一.MapReduce的执行过程官方描述：map端merge是多路归并reduce端merge是两路归并自己描述：二.其实并不简单的WordCount@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 把value对应

2021-04-13 10:10:37 938

原创整理下Maven和运行jar包的常用操作

目录一.Maven的package流程一.Maven的package流程有三种内置的build lifecycles：default、clean和site。默认生命周期处理项目部署，clean生命周期处理项目清理，而site生命周期处理项目站点文档的创建。A Build Lifecycle is Made Up of Phases.输入命令时：You should select the phase that matches your outcome. （package是default life

2021-04-04 13:19:55 462

程研板的博客