自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 记一次rabbitmq+hbase+hive映射表+impala实战

需求介绍接收企业微信通过rabbitmq推送过来的报文数据,解析报文并存入大数据平台(hive或kudu表中方便后续开发),数据主要是坐席添加/删除/更改用户等行为的xml日志。技术选型通过分析,可以把需求拆分为:rabbitmq接收数据->解析xml数据->数据存储,接收数据+解析xml都很简单,主要考虑数据存储方面。传统rabbitmq数据存储一般采用文件流的方式追加插入,但是由于hdfs文件并不支持append操作(这点我不是很确定,但我测试的是hdfs文件可以追加文件,不支持追加

2020-07-20 15:14:06 453

原创 Hive50道经典练习题及答案,常用SQL语句练习50题(题目转自别人, 答案全部自己写的)

创建数据库:建表:create table student(id string,name string,birthday string,sex string) row format delimited fields terminated by ’ ';create table course(id string,name string,tid string) row format delimi...

2019-07-12 21:11:08 6902 1

转载 5大常用算法汇总(转)

1、五大常用算法之一:分治算法:http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741370.html2、五大常用算法之二:动态规划算法:http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741374.html3、五大常用算法之三:贪心算法:http://www.cnblogs...

2019-07-12 20:47:31 571

原创 jvm调优

jvm调优1. 什么是jvm2. jvm的发展史3. jvm内存区域划分4. jvm gc的基本原理和算法5. jvm内存分配策略6. 常见的jvm分析工具1.什么是jvmjvm->Java Virtual Machine ,是java的跨平台,一次编译,到处执行。每一种操作系统,执行相关程序的时候,因为操作系统环境的不同,会造成代码不能跨平台执行。而java可以做到,原因...

2019-07-12 20:46:10 175

原创 spark性能优化 3

4. spark shufflewhat is shuffle? spark/mr作业在执行过程中,数据重排的过程,主要发生在mr的话,就在map输出和reduce输入的过程,如果在spark就发生在窄依赖阶段和宽依赖阶段。shuffle操作是分布式计算不可避免的一个过程,同时也是分布式计算最消耗性能的一个部分。4.1 spark shuffle 执行过程在spark中由于不同的Sh...

2019-07-11 21:14:56 252

原创 spark性能调优 2

3 spark数据倾斜3.1 什么是数据倾斜,现象是什么?

2019-07-11 20:54:11 91

原创 Spark性能调优 1

性能调优大纲开发调优资源调优JVMshuffle数据倾斜1. 为啥要搞调优 很多开发出来的代码都是垃圾代码,没有办法,催得紧,只能以完成功能为线,性能靠后,之后再对开发代码进行维护升级,优化,重构,所以我们需要优化2.开发优化2.1避免创建重复的RDD我们在开发过程中要注意:对于同一份数据,只应该创建一个RDD,不能创建多个RDD来代表同一份数据...

2019-07-11 20:19:56 120

原创 Spark入门学习 3

6.共享变量6.1 概述所谓共享变量,是为了解决task中使用到外部变量造成相关问题而出现的。spark提供了有限的两种共享变量:广播变量Broadcast变量和累加器Accumulator。6.2 Broadcast使用的话,非常简单,只需要将普通的变量包装为Broadcast即可。 val xxBC:Broadcast[T] = sc.broadcast(t);其中T是被包装的变量t...

2019-07-11 19:44:16 132

原创 Spark入门学习 2

目录:1. List item2. l3. l4. l5. l6. l1.Spark的产生背景1.1.1 对mapreduce的优化减少磁盘 I/O:随着实时大数据应用越来越多,Hadoop 作为离线的高吞吐、低响应框架已不能满足这类需求。Hadoop MapReduce 的 map 端将中间输出和结果存储在磁盘中,reduce 端又需要从磁盘读写中间结果,势必造成磁盘 IO ...

2019-07-10 19:56:48 102

原创 Spark入门学习 1

1.Spark的一些基本名词解释ClusterManager:在Standalone模式中即为Master(主节点),控制整个集群,监控Worker。在YARN模式中为资源管理器。Worker:从节点,负责控制计算节点,启动Executor。在YARN模式中为NodeManager,负责计算节点的控制。Driver:运行Application的main()函数并创建SparkContext。...

2019-07-06 18:48:31 195

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除