2019年03月_一个不会写代码的小黑

10月 09月 07月 06月 05月 04月 03月 02月 01月

转载 spark优化

1、性能调优1.1、分配更多资源1.1.1、分配哪些资源？Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量1.1.2、在哪里分配这些资源？在生产环境中，提交spark作业时，用的spark-submit shell脚本，里面调整对应的参数：/usr/local/spark/bin/spark-sub...

2019-03-22 20:40:28 434

1.receiver模式Receiver接收固定时间间隔的数据，放在Spark executors内存中操作，使用kafka高级API，自动维护偏移量，达到固定时间才能进行处理，效率低下，并且容易丢失数据。数据备份两次，保存到hdfs，每次使用须从hdfs读取，导致效率低下。如果数据量特别大的情况下，容量不够就会造成数据丢失。receiver通过WAL，设置本地存储，会存放到本地，保证数据不...

2019-03-20 14:12:27 1248

转载 Spark任务提交全流程（简述+全流程）

概略:1.Driver端启动SparkSubmit进程，启动后开始向Master进行通信，此时创建了一个对象（SparkContext），接着向Master发送任务消息2.Master接收到任务信息后，开始资源调度，此时会和所有的Worker进行通信，找到空闲的Worker，并通知Worker来拿取任务和启动相应的Executor3.Executor启动后，开始与Driver进行反向注册，...

2019-03-20 13:55:24 10647 4

原创 tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.mapre

Exception in thread "main" java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.&lt;init&gt;()V from class org.apache.hadoop.mapred.FileInputFormat at org.apache.hado...

2019-03-07 15:06:27 3963 3

原创 RDD依赖关系

RDD和它依赖的父RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。一般有shuffle过程即宽依赖，无shuffle过程就窄依赖但是窄依赖也有可能产生数据在网络传输。2.1、窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用任务可以在本地执行，不需要shuffle。...

2019-03-07 15:03:52 686

原创 ElasticSearch启动报错

ElasticsearchParseException[malformed, expected settings to start with ‘object’, instead was [VALUE_STRING]]修改es配置文件的时候，因为没有在“：”号后面留空格，导致报以下错误Exception in thread "main" SettingsException[Failed to l...

2019-03-06 13:02:43 2262 1

翻译 spark streaming的工作原理与Dstrenm

spark streaming的原理对于Spark Core它的核心就是RDD，对于Spark Streaming来说，它的核心是DStream，DStream类似于RDD，它实质上一系列的RDD的集合，DStream可以按照秒数将数据流进行批量的划分。首先从接收到流数据之后，将其划分为多个batch，然后提交给Spark集群进行计算，最后将结果批量输出到HDFS或者数据库以及前端页面展示等官...

2019-03-04 20:24:05 280

原创 spark写sql语句范例

//创建一个sparkSession对象val sparkSession = SparkSession.builder() .appName("createDF2") .master("local") .getOrCreate()val rdd = sparkSession.sparkContext.textFile("c://data/person.txt")//整理数据，RO...

2019-03-02 21:58:24 2666

表白源码，表白。。。。

网页表白源码，本地源码，表白，欢迎下载,送给你亲爱的她，可更改内容

2018-09-17

斐讯刷潘多拉K1固件。

斐讯路由器K1刷潘多拉固件...................................如果所需积分过高，请留言

2018-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

小黑的博客

转载 spark优化

转载 Streaming消费Kafka数据的两种方式

转载 Spark任务提交全流程（简述+全流程）

原创 tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.mapre

原创 RDD依赖关系

原创 ElasticSearch启动报错

翻译 spark streaming的工作原理与Dstrenm

原创 spark写sql语句范例

表白源码，表白。。。。

斐讯刷潘多拉K1固件。

空空如也

表白源码，表白。。。。

斐讯刷潘多拉K1固件 。

空空如也

斐讯刷潘多拉K1固件。