- 博客(10)
- 收藏
- 关注
原创 记一次rabbitmq+hbase+hive映射表+impala实战
需求介绍接收企业微信通过rabbitmq推送过来的报文数据,解析报文并存入大数据平台(hive或kudu表中方便后续开发),数据主要是坐席添加/删除/更改用户等行为的xml日志。技术选型通过分析,可以把需求拆分为:rabbitmq接收数据->解析xml数据->数据存储,接收数据+解析xml都很简单,主要考虑数据存储方面。传统rabbitmq数据存储一般采用文件流的方式追加插入,但是由于hdfs文件并不支持append操作(这点我不是很确定,但我测试的是hdfs文件可以追加文件,不支持追加
2020-07-20 15:14:06 511
原创 Hive50道经典练习题及答案,常用SQL语句练习50题(题目转自别人, 答案全部自己写的)
创建数据库:建表:create table student(id string,name string,birthday string,sex string) row format delimited fields terminated by ’ ';create table course(id string,name string,tid string) row format delimi...
2019-07-12 21:11:08 6999 1
转载 5大常用算法汇总(转)
1、五大常用算法之一:分治算法:http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741370.html2、五大常用算法之二:动态规划算法:http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741374.html3、五大常用算法之三:贪心算法:http://www.cnblogs...
2019-07-12 20:47:31 615
原创 jvm调优
jvm调优1. 什么是jvm2. jvm的发展史3. jvm内存区域划分4. jvm gc的基本原理和算法5. jvm内存分配策略6. 常见的jvm分析工具1.什么是jvmjvm->Java Virtual Machine ,是java的跨平台,一次编译,到处执行。每一种操作系统,执行相关程序的时候,因为操作系统环境的不同,会造成代码不能跨平台执行。而java可以做到,原因...
2019-07-12 20:46:10 218
原创 spark性能优化 3
4. spark shufflewhat is shuffle? spark/mr作业在执行过程中,数据重排的过程,主要发生在mr的话,就在map输出和reduce输入的过程,如果在spark就发生在窄依赖阶段和宽依赖阶段。shuffle操作是分布式计算不可避免的一个过程,同时也是分布式计算最消耗性能的一个部分。4.1 spark shuffle 执行过程在spark中由于不同的Sh...
2019-07-11 21:14:56 309
原创 Spark性能调优 1
性能调优大纲开发调优资源调优JVMshuffle数据倾斜1. 为啥要搞调优 很多开发出来的代码都是垃圾代码,没有办法,催得紧,只能以完成功能为线,性能靠后,之后再对开发代码进行维护升级,优化,重构,所以我们需要优化2.开发优化2.1避免创建重复的RDD我们在开发过程中要注意:对于同一份数据,只应该创建一个RDD,不能创建多个RDD来代表同一份数据...
2019-07-11 20:19:56 151
原创 Spark入门学习 3
6.共享变量6.1 概述所谓共享变量,是为了解决task中使用到外部变量造成相关问题而出现的。spark提供了有限的两种共享变量:广播变量Broadcast变量和累加器Accumulator。6.2 Broadcast使用的话,非常简单,只需要将普通的变量包装为Broadcast即可。 val xxBC:Broadcast[T] = sc.broadcast(t);其中T是被包装的变量t...
2019-07-11 19:44:16 156
原创 Spark入门学习 2
目录:1. List item2. l3. l4. l5. l6. l1.Spark的产生背景1.1.1 对mapreduce的优化减少磁盘 I/O:随着实时大数据应用越来越多,Hadoop 作为离线的高吞吐、低响应框架已不能满足这类需求。Hadoop MapReduce 的 map 端将中间输出和结果存储在磁盘中,reduce 端又需要从磁盘读写中间结果,势必造成磁盘 IO ...
2019-07-10 19:56:48 128
原创 Spark入门学习 1
1.Spark的一些基本名词解释ClusterManager:在Standalone模式中即为Master(主节点),控制整个集群,监控Worker。在YARN模式中为资源管理器。Worker:从节点,负责控制计算节点,启动Executor。在YARN模式中为NodeManager,负责计算节点的控制。Driver:运行Application的main()函数并创建SparkContext。...
2019-07-06 18:48:31 259
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人