自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

王天一的博客

从始至终 感谢我的引路人X

  • 博客(5)
  • 收藏
  • 关注

原创 SparkStreamin on yarn 长时间运行作业的提交优化

容错在YARN集群模式下,Spark驱动程序与Application Master(应用程序分配的第一个YARN容器)在同一容器中运行。此过程负责从YARN 驱动应用程序和请求资源(Spark执行程序)。重要的是,Application Master消除了在应用程序生命周期中运行的任何其他进程的需要。即使一个提交Spark Streaming作业的边缘Hadoop节点失败,应用程序也不会受到影响...

2019-07-26 15:52:39 387

原创 CDH平台常用操作简介(5.12版本)

1.CDH启动/关闭1.1启动CDH1:先启动Mysql service mysql start2:hadoop001再启动Server:/opt/cloudera-manager/cm-5.12.0/etc/init.d/cloudera-scm-server start3:hadoop001-003再启动Agent:/opt//cloudera-manager/cm-5.12.0/et...

2019-07-11 14:15:33 1233

原创 SparkSQL 读取mysql大表速度过慢解决方法

问题背景在使用sqarksql.read读取mysql表时(大约为2400万条左右) val scholarDF = spark.read .format("jdbc") .option("url", "jdbc:mysql://192.168.60.49:3306/test") .option("dbtable", "scholar_2") .o...

2019-07-08 12:13:00 5221

原创 Spark 从Cache与Persist入手,浅谈缓存类别的关系与区别

我们为什么要在spark中使用Cache?我们先做一个简单的测试读取一个本地文件做一次collect操作:(仅做测试用,生产中使用collect容易发生driver OOM等问题,不推荐使用)val rdd=sc.textFile("file:///home/hadoop/data/input.txt")val rdd=sc.textFile("file:///home/hadoop/dat...

2019-07-03 16:12:50 199

原创 SparkStreaming+kafka 外部数据源保存offset实例(MySQL)

MySQL创建存储offset的表格mysql> use testmysql> create table hlw_offset( topic varchar(32), groupid varchar(50), partitions int, fromoffset bigint, untiloffset ...

2019-07-01 15:52:42 348

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除