spark
文章平均质量分 81
spark
阿啄debugIT
0、精通java,及常用设计模式,熟练编写shell脚本,掌握python、scala、golang的编写;
1、精通Spring Cloud等微服务架构,掌握SpringBoot、batis等后端技术,kafka、redis、es等中间件的整合开发;
2、熟悉掌握mysql、pg等关系数据的原理及调优,及NoSQL数据的存储和查询;
3、熟悉CDH各个组件,及精通离线、实时等计算技术;
4、掌握java多线程高并发编程,及整合shiro、redis、fastdfs、MQ、netty等开发;
5、熟悉K8S集群管理Docker容器,及理解掌握openstack原理和操作。
展开
-
详细比较StringRedisTemplate和RedisTemplate的区别及使用方法,及解决融合使用方法
前言感觉StringRedisTemplate和RedisTemplate非常的相识,到底有什么区别和联系呢?点开idea,打开其依赖关系,可以看出只需使用maven依赖包spring-boot-starter-data-redis,然后在service中注入StringRedisTemplate或者RedisTemplate即可使用。从下图StringRedisTemplate继承了RedisTemplate,所以两者对Redis的操作方法具有相同之处实验软件:RedisDesktopMa原创 2021-03-09 18:50:52 · 9141 阅读 · 0 评论 -
spark对离线仓库数据库,如hive ,mongdb,hbase等中的特定敏感数据进行脱敏处理,及加解密的解决方案
前言在生产中,难免存在敏感数据,如姓名、职业、职务、年龄、血型、婚姻状况、宗教信仰、学历、专业资格、工作经历、家庭住址、电话号码(手机用户的手机号码)、身份证号码、信用卡号码、指纹、病史、电子邮件、网上登录账号和密码等等,在数据流通过程中,都需要进行数据脱敏,但又要大数据类业务不会受到脱敏的影响,达成脱敏前后的数据一致性和有效性。进行数据脱敏的方法很多,无非对数据进行加解密,若是数据量比较大,就需要离线处理。比如采用spark对离线仓库数据库,如hive ,mongdb,hbase等中的特定敏感数据原创 2021-01-25 23:25:34 · 1443 阅读 · 2 评论 -
基于K8S,spark访问hadoop集群的共享层hive表数据历险记
前言由于Spark的抽象设计,我们可以使用第三方资源管理平台调度和管理Spark作业,比如Yarn、Mesos和Kubernetes。基本原理基本原理当我们通过spark-submit将Spark作业提交到Kubernetes集群时,会执行以下流程:Spark在Kubernetes pod中创建Spark driver Driver调用Kubernetes API创建executor pods,executor pods执行作业代码 计算作业结束,executor pods回收并清理原创 2020-07-07 10:52:14 · 2042 阅读 · 0 评论 -
建造者模式遇到大数据SparkSession,使链式函数编程再次流行
前言在过去,最流行的后台代码开发模式是工厂模式,工厂方法,装饰模式等,但是随着大数据时代的到来,及spark2.0的引入,建造者模式,也流行起来,尤其是链式函数方法的使用!建造者模式的原理一个构建者模式的实例demopackage com.enu.test.ne;/** * 缺点:先构造一个builder对象,再根据builder生成目标类 好处:保证了目标类的不可变性。 ...原创 2020-02-23 22:48:37 · 561 阅读 · 0 评论 -
Spark job提交时,spark-submit的主要参数的解析及建议
前言说spark之前,先提一下MapReduce: 最本质的两个过程就是Map和ReduceMap的应用在于我们需要数据一对一的元素的映射转换,比如说进行截取,进行过滤,或者任何的转换操作,这些一对一的元素转换就称作是Map; Reduce主要就是元素的聚合,就是多个元素对一个元素的聚合,比如求Sum等,这就是Reduce。Mapreduce是Hadoop1.0的核心,Spa...原创 2020-02-16 11:06:37 · 735 阅读 · 0 评论 -
解决CDH内嵌Spark版本不支持spark-sql的方案
1.概述CDH内嵌Spark版本不支持spark-sql,因为cloudera在推自己的impala,但是有些场景需要用到Spark-sql时,比如Kylin企业版想要加快构建需要用到SparkSQL,大概的思路就是换jar包,很多资料,千篇一律是要加入hive&hivethriftserver重新编译源码再打成jar才能支持,其实我们只需要到官网去把编译好的spark包下下来,直接替...原创 2020-02-15 20:43:54 · 2994 阅读 · 0 评论 -
在开发spark程序中,sqlContext函数不能完全实现业务逻辑,所以会引入hiveContext,解决TOP_N问题
异常报错:问题描述:在开发spark程序中,sqlContext函数不能完全实现业务逻辑,所以会引入hiveContext,(用hiveContext中的开窗函数TOP-N)。原因分析:在SQLContext上下文是不支持开窗函数的,用他来解决TOP-N问题,写的sql有点复杂,执行效率相对较低,可使用HiveContext,使用row_number() over(par...原创 2020-02-15 02:31:25 · 336 阅读 · 0 评论 -
提高spark任务稳定性的解决方案及Blacklist 机制说明解释
分布式集群中,特别是高负载的情况下,就会引发很多意想不到的问题,例如:1、坏盘/硬盘满将会导致 /path/to/usercache 目录创建失败,一个stage中任务失败次数达到一定次数(spark.task.maxFailures)会导致整个job失败。2、executor 注册 external shuffle service 超时。3、executor 从 external shuf...原创 2020-02-06 12:48:00 · 847 阅读 · 0 评论 -
Spark的性能优化案例分析(下)
前言Spark的性能优化案例分析(上),介绍了软件性能优化必须经过进行性能测试,并在了解软件架构和技术的基础上进行。今天,我们通过几个 Spark 性能优化的案例,看一看所讲的性能优化原则如何落地。如果你忘记了性能优化的原则,可以返回上一期复习一下。参考spark submit参数及调优https://www.cnblogs.com/haoyy/p/6893943.htmlSpark ...原创 2020-02-04 22:54:55 · 515 阅读 · 0 评论 -
Spark的性能优化案例分析(上)
前言现在最主流的大数据技术几乎都是开源的产品,不管是 Hadoop 这样的大数据存储与计算产品,还是 Hive、Spark SQL 这样的大数据仓库,又或者 Storm、Flink 这样的大数据流计算产品,还有 Mahout、MLlib 这样的大数据机器学习算法库,它们都来自开源社区。所以,我们在使用大数据、学习大数据的过程中肯定少不了要和开源社区打交道。一方面希望更深入、系统地了解软件性...原创 2020-02-04 21:51:06 · 1040 阅读 · 0 评论 -
Spark Streaming 提供窗口DStream的RDD计算实践
原理解释Spark Streaming 提供窗口计算,允许滑动数据窗口上进行操作RDD。下图是官方图片说明了此滑动窗口。如图所示,每当窗口滑过源DStream时,落在窗口内的源RDD,被组合,并进行操作,以产生窗口DStream的RDD。在这种具体情况下,操作应用于最近3个时间单位的数据,并以2个时间单位滑动。这表明任何窗口操作都需要指定两个参数。(windowLength)窗...原创 2020-02-04 13:27:01 · 427 阅读 · 0 评论 -
flume,应用,spark,redis等五分钟快照启动脚本
flume,应用,spark,redis等五分钟快照启动脚本,留存此处,以备他用!#vim /usr/local/script/startAll.shecho "正在开启flume"nohup flume-ng agent --conf-file /usr/local/apache-flume-1.7.0-bin/conf/flume-conf-test-1.properties -c...原创 2020-02-03 00:11:14 · 309 阅读 · 0 评论 -
基于docker容器,快速搭建hadoop+spark+hive+hbase集群的详细过程记录
1.安装docker参考:https://blog.csdn.net/as4589sd/article/details/1041402441.1.安装docker yum update -yyum -y install dockersystemctl start docker1.2.更改为公司本地镜像源,或者阿里镜像源vi /etc/docker/daemon.j...原创 2020-02-02 01:47:08 · 2224 阅读 · 0 评论 -
基于内存计算的spark特点分析,及OOM问题解决
1、Spark简介Spark是基于内存计算的通用大规模数据处理框架。Spark已经融入了Hadoop生态系统,可支持的作业类型和应用场景比MapReduce 更为广泛,并且具备了MapReduce所有的高容错性和高伸缩性特点。Spark支持离线批处理、流式计算和实时分析。2、Spark为何快 MapReduce慢的原因:多个MapReduce串联执行时,依赖于HDFS输出的中...原创 2020-01-18 20:30:44 · 867 阅读 · 0 评论 -
将Hive中的hive-site.xml文件拷贝到Spark的conf目录,Spark才能访问Hive的元数据
HiveContext是Spark提供的用户接口,HiveContext继承自SqlContext。可以使用sql读取和写入Hive表(必须在hive上有创建表且名称必须一致)。如下SQL:select user_ip_city, service_type, sub_service_type from default.gem_dns_etl_xdr where time=201811031...原创 2020-01-14 16:49:00 · 2779 阅读 · 0 评论 -
使用Kryo对Spark进行序列化,内存调优
Spark是内存当中的计算框架,集群中的任何资源都会让它处于瓶颈,CPU、内存、网络带宽。通常,内存足够的情况之下,网络带宽是瓶颈,这时我们就需要进行一些调优,比如用一种序列化的方式来存储RDD来减少内存使用,这边文章就讲两种方式,数据序列化和内存调优,接下来我们会分几个主题来谈论这个调优问题。1、数据序列化(1) Spark默认是使用Java的ObjectOutputStream框架,...原创 2020-01-14 16:14:13 · 488 阅读 · 0 评论 -
spark中sqlContext函数不能完全实现业务逻辑,引入hiveContext,解决开窗函数TOP-N问题
异常报错:问题描述:1、为什么用hiveContext?在开发spark程序中,sqlContext函数不能完全实现业务逻辑,所以会引入hiveContext,(本次用到hiveContext中的开窗函数TOP-N)。原因分析:在SQLContext上下文是不支持开窗函数的,用他来解决TOP-N问题,写的sql有点复杂,执行效率相对较低,可使用HiveContext,使用ro...原创 2019-12-23 14:38:15 · 354 阅读 · 0 评论