自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小黑的博客

凡出言,信为先;诈与妄,奚可焉

  • 博客(8)
  • 资源 (2)
  • 收藏
  • 关注

转载 spark优化

1、 性能调优1.1、 分配更多资源1.1.1、分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量1.1.2、在哪里分配这些资源?在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数:/usr/local/spark/bin/spark-sub...

2019-03-22 20:40:28 434

转载 Streaming消费Kafka数据的两种方式

1.receiver模式Receiver接收固定时间间隔的数据,放在Spark executors内存中操作,使用kafka高级API,自动维护偏移量,达到固定时间才能进行处理,效率低下,并且容易丢失数据。数据备份两次,保存到hdfs,每次使用须从hdfs读取,导致效率低下。如果数据量特别大的情况下,容量不够就会造成数据丢失。receiver通过WAL,设置本地存储,会存放到本地,保证数据不...

2019-03-20 14:12:27 1248

转载 Spark任务提交全流程(简述+全流程)

概略:1.Driver端启动SparkSubmit进程,启动后开始向Master进行通信,此时创建了一个对象(SparkContext),接着向Master发送任务消息2.Master接收到任务信息后,开始资源调度,此时会和所有的Worker进行通信,找到空闲的Worker,并通知Worker来拿取任务和启动相应的Executor3.Executor启动后,开始与Driver进行反向注册,...

2019-03-20 13:55:24 10647 4

原创 tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.mapre

Exception in thread &quot;main&quot; java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.&amp;lt;init&amp;gt;()V from class org.apache.hadoop.mapred.FileInputFormat at org.apache.hado...

2019-03-07 15:06:27 3963 3

原创 RDD依赖关系

RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。一般有shuffle过程即宽依赖,无shuffle过程就窄依赖但是窄依赖也有可能产生数据在网络传输。2.1、窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用任务可以在本地执行,不需要shuffle。...

2019-03-07 15:03:52 686

原创 ElasticSearch启动报错

ElasticsearchParseException[malformed, expected settings to start with ‘object’, instead was [VALUE_STRING]]修改es配置文件的时候,因为没有在“:”号后面留空格,导致报以下错误Exception in thread "main" SettingsException[Failed to l...

2019-03-06 13:02:43 2262 1

翻译 spark streaming的工作原理与Dstrenm

spark streaming的原理对于Spark Core它的核心就是RDD,对于Spark Streaming来说,它的核心是DStream,DStream类似于RDD,它实质上一系列的RDD的集合,DStream可以按照秒数将数据流进行批量的划分。首先从接收到流数据之后,将其划分为多个batch,然后提交给Spark集群进行计算,最后将结果批量输出到HDFS或者数据库以及前端页面展示等官...

2019-03-04 20:24:05 280

原创 spark写sql语句范例

//创建一个sparkSession对象val sparkSession = SparkSession.builder() .appName("createDF2") .master("local") .getOrCreate()val rdd = sparkSession.sparkContext.textFile("c://data/person.txt")//整理数据,RO...

2019-03-02 21:58:24 2666

表白源码,表白。。。。

网页表白源码,本地源码,表白,欢迎下载,送给你亲爱的她,可更改内容

2018-09-17

斐讯刷潘多拉K1固件 。

斐讯路由器K1刷潘多拉固件...................................如果所需积分过高,请留言

2018-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除