exert_0211-CSDN博客

原创记一次rabbitmq+hbase+hive映射表+impala实战

需求介绍接收企业微信通过rabbitmq推送过来的报文数据，解析报文并存入大数据平台（hive或kudu表中方便后续开发），数据主要是坐席添加/删除/更改用户等行为的xml日志。技术选型通过分析，可以把需求拆分为:rabbitmq接收数据->解析xml数据->数据存储，接收数据+解析xml都很简单，主要考虑数据存储方面。传统rabbitmq数据存储一般采用文件流的方式追加插入，但是由于hdfs文件并不支持append操作（这点我不是很确定，但我测试的是hdfs文件可以追加文件，不支持追加

2020-07-20 15:14:06 511

原创 Hive50道经典练习题及答案，常用SQL语句练习50题（题目转自别人，答案全部自己写的）

创建数据库：建表：create table student(id string,name string,birthday string,sex string) row format delimited fields terminated by ’ ';create table course(id string,name string,tid string) row format delimi...

2019-07-12 21:11:08 6999 1

转载 5大常用算法汇总(转)

1、五大常用算法之一：分治算法：http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741370.html2、五大常用算法之二：动态规划算法：http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741374.html3、五大常用算法之三：贪心算法：http://www.cnblogs...

2019-07-12 20:47:31 615

原创 jvm调优

jvm调优1. 什么是jvm2. jvm的发展史3. jvm内存区域划分4. jvm gc的基本原理和算法5. jvm内存分配策略6. 常见的jvm分析工具1.什么是jvmjvm->Java Virtual Machine ,是java的跨平台，一次编译，到处执行。每一种操作系统，执行相关程序的时候，因为操作系统环境的不同，会造成代码不能跨平台执行。而java可以做到，原因...

2019-07-12 20:46:10 218

原创 spark性能优化 3

4. spark shufflewhat is shuffle? spark/mr作业在执行过程中，数据重排的过程，主要发生在mr的话，就在map输出和reduce输入的过程，如果在spark就发生在窄依赖阶段和宽依赖阶段。shuffle操作是分布式计算不可避免的一个过程，同时也是分布式计算最消耗性能的一个部分。4.1 spark shuffle 执行过程在spark中由于不同的Sh...

2019-07-11 21:14:56 309

原创 spark性能调优 2

3 spark数据倾斜3.1 什么是数据倾斜，现象是什么？

2019-07-11 20:54:11 116

原创 Spark性能调优 1

性能调优大纲开发调优资源调优JVMshuffle数据倾斜1. 为啥要搞调优很多开发出来的代码都是垃圾代码，没有办法，催得紧，只能以完成功能为线，性能靠后，之后再对开发代码进行维护升级，优化，重构，所以我们需要优化2.开发优化2.1避免创建重复的RDD我们在开发过程中要注意：对于同一份数据，只应该创建一个RDD，不能创建多个RDD来代表同一份数据...

2019-07-11 20:19:56 151

原创 Spark入门学习 3

6.共享变量6.1 概述所谓共享变量，是为了解决task中使用到外部变量造成相关问题而出现的。spark提供了有限的两种共享变量：广播变量Broadcast变量和累加器Accumulator。6.2 Broadcast使用的话，非常简单，只需要将普通的变量包装为Broadcast即可。 val xxBC:Broadcast[T] = sc.broadcast(t);其中T是被包装的变量t...

2019-07-11 19:44:16 156

原创 Spark入门学习 2

目录：1. List item2. l3. l4. l5. l6. l1.Spark的产生背景1.1.1 对mapreduce的优化减少磁盘 I/O：随着实时大数据应用越来越多，Hadoop 作为离线的高吞吐、低响应框架已不能满足这类需求。Hadoop MapReduce 的 map 端将中间输出和结果存储在磁盘中，reduce 端又需要从磁盘读写中间结果，势必造成磁盘 IO ...

2019-07-10 19:56:48 128

原创 Spark入门学习 1

1.Spark的一些基本名词解释ClusterManager：在Standalone模式中即为Master（主节点），控制整个集群，监控Worker。在YARN模式中为资源管理器。Worker：从节点，负责控制计算节点，启动Executor。在YARN模式中为NodeManager，负责计算节点的控制。Driver：运行Application的main()函数并创建SparkContext。...

2019-07-06 18:48:31 259

exert_0211的博客