- 博客(9)
- 收藏
- 关注
原创 Spark core算子的一点小总结
scala> val inputRDD1 = sc.parallelize(Array[(Int, Char)]( | (1, 'a'), (2, 'b'), (3, 'c'), (4, 'd'), (5, 'e'), (3, 'f'), (2, 'g'), (1, 'h'), (2, 'i') | ), 3)inputRDD1: org.apache.spark.rdd.RDD[(Int, Char)] = ParallelCollectionRDD[13]
2021-04-29 16:29:50 114 1
原创 Hive性能调优(二)——一文搞懂HiveSQL执行计划
测试的数据请看上一篇博客,数据行数500万。目录一.简单SQL的执行计划二.带普通函数SQL的执行计划三.带聚合函数SQL的执行计划四.带窗口函数SQL的执行计划五.表连接的SQL的执行计划一.简单SQL的执行计划explain select s_age,s_scorefrom student_tb_seqwhere s_age=20;+----------------------------------------------------+--+| .
2021-04-18 16:34:03 1007
原创 Hive性能调优(一)——不同数据格式对Hive性能的影响
目录一.数据生成二.数据准备三.性能测试四.原因分析一.数据生成# coding: utf-8import randomimport datetimeimport importlibimport sysimportlib.reload(sys)# lastname和first都是为了来随机构造名称lastname = u"赵李周吴郑王冯陈褚卫蒋沈韩杨朱秦尤许何吕施张孔曹严华金魏陶姜戚谢邹喻柏水窦章云苏潘葛奚范彭郎鲁韦昌马苗"firstname = u"红尘冷暖岁月清浅仓促间遗落一地如诗
2021-04-17 11:38:51 567
原创 日志方面的常见问题及log4j的使用
目录一.MapReduce和Spark的日志MapReduceSpark二.自定义的日志三.参考文章一.MapReduce和Spark的日志MapReduceMapReduce在IDEA上并没有运行日志,只能去UI上查看log。则需要借助 log4j 来查看日志。log4j.properties:log4j.rootLogger=INFO,stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.s
2021-04-13 11:33:58 335
原创 关于MapReduce的一些面试题
目录一.MapReduce的执行过程二.其实并不简单的WordCount一.MapReduce的执行过程官方描述:map端merge是多路归并reduce端merge是两路归并自己描述:二.其实并不简单的WordCount@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 把value对应
2021-04-13 10:10:37 938
原创 整理下Maven和运行jar包的常用操作
目录一.Maven的package流程一.Maven的package流程有三种内置的build lifecycles:default、clean和site。默认生命周期处理项目部署,clean生命周期处理项目清理,而site生命周期处理项目站点文档的创建。A Build Lifecycle is Made Up of Phases.输入命令时:You should select the phase that matches your outcome. (package是default life
2021-04-04 13:19:55 462
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人