自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Spark core算子的一点小总结

scala> val inputRDD1 = sc.parallelize(Array[(Int, Char)]( | (1, 'a'), (2, 'b'), (3, 'c'), (4, 'd'), (5, 'e'), (3, 'f'), (2, 'g'), (1, 'h'), (2, 'i') | ), 3)inputRDD1: org.apache.spark.rdd.RDD[(Int, Char)] = ParallelCollectionRDD[13]

2021-04-29 16:29:50 114 1

原创 Hive性能调优(四)——如何解决数据倾斜问题

目录

2021-04-24 12:52:01 218 2

原创 Hive性能调优(三)——通过Yarn WebUI来定位性能瓶颈

目录

2021-04-22 15:35:20 923 3

原创 大数据中各种压缩格式性能对比

目录

2021-04-20 18:07:57 670 3

原创 Hive性能调优(二)——一文搞懂HiveSQL执行计划

测试的数据请看上一篇博客,数据行数500万。目录一.简单SQL的执行计划二.带普通函数SQL的执行计划三.带聚合函数SQL的执行计划四.带窗口函数SQL的执行计划五.表连接的SQL的执行计划一.简单SQL的执行计划explain select s_age,s_scorefrom student_tb_seqwhere s_age=20;+----------------------------------------------------+--+| .

2021-04-18 16:34:03 1007

原创 Hive性能调优(一)——不同数据格式对Hive性能的影响

目录一.数据生成二.数据准备三.性能测试四.原因分析一.数据生成# coding: utf-8import randomimport datetimeimport importlibimport sysimportlib.reload(sys)# lastname和first都是为了来随机构造名称lastname = u"赵李周吴郑王冯陈褚卫蒋沈韩杨朱秦尤许何吕施张孔曹严华金魏陶姜戚谢邹喻柏水窦章云苏潘葛奚范彭郎鲁韦昌马苗"firstname = u"红尘冷暖岁月清浅仓促间遗落一地如诗

2021-04-17 11:38:51 567

原创 日志方面的常见问题及log4j的使用

目录一.MapReduce和Spark的日志MapReduceSpark二.自定义的日志三.参考文章一.MapReduce和Spark的日志MapReduceMapReduce在IDEA上并没有运行日志,只能去UI上查看log。则需要借助 log4j 来查看日志。log4j.properties:log4j.rootLogger=INFO,stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.s

2021-04-13 11:33:58 335

原创 关于MapReduce的一些面试题

目录一.MapReduce的执行过程二.其实并不简单的WordCount一.MapReduce的执行过程官方描述:map端merge是多路归并reduce端merge是两路归并自己描述:二.其实并不简单的WordCount@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 把value对应

2021-04-13 10:10:37 938

原创 整理下Maven和运行jar包的常用操作

目录一.Maven的package流程一.Maven的package流程有三种内置的build lifecycles:default、clean和site。默认生命周期处理项目部署,clean生命周期处理项目清理,而site生命周期处理项目站点文档的创建。A Build Lifecycle is Made Up of Phases.输入命令时:You should select the phase that matches your outcome. (package是default life

2021-04-04 13:19:55 462

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除