2017年08月_gongpulin

转载 Spark2.0源码学习-Job提交与Task的拆分

【Spark2.0源码学习】-9.Job提交与Task的拆分在前面的章节Client的加载中，Spark的DriverRunner已开始执行用户任务类（比如：org.apache.spark.examples.SparkPi），下面我们开始针对于用户任务类（或者任务代码）进行分析一、整体预览基于上篇图做了扩展，增加任务执行的相关交互

2017-08-31 23:56:13 440

转载漫画BitMap在用户画像的应用

两个月之前——为满足用户标签的统计需求，小灰利用Mysql设计了如下的表结构，每一个维度的标签都对应着Mysql表的一列：要想统计所有90后的程序员该怎

2017-08-29 23:30:55 2556

转载 DStream 生成 RDD 实例详解

Quick Example我们在前文 [DStream, DStreamGraph 详解](1.1 DStream, DStreamGraph 详解.md) 中引用了 Spark Streaming 官方的 quick example 的这段对 DStream DAG 的定义，注意看代码中的注释讲解内容：// ssc.socketTextStream() 将创建一个 Socke

2017-08-29 23:20:43 597

转载 Apache Spark 2.0中使用DataFrames和SQL

在Apache Spark 2.0中使用DataFrames和SQL的第一步Spark 2.0开发的一个动机是让它可以触及更广泛的受众，特别是缺乏编程技能但可能非常熟悉SQL的数据分析师或业务分析师。因此，Spark 2.0现在比以往更易使用。在这部分，我将介绍如何使用Apache Spark 2.0。并将重点关注DataFrames作为新Dataset API的无类型版本。到

2017-08-27 23:51:48 1019

转载 Spark性能优化总结

优化的目标保证大数据量下任务运行成功降低资源消耗提高计算性能三个目标优先级依次递减，首要解决的是程序能够跑通大数据量，资源性能尽量进行优化。基础优化这部分主要对程序进行优化，主要考虑stage、cache、partition等方面。1. Stage在进行shuffle操作时，如reduceByKey、groupByKey，会划分新的stage

2017-08-27 23:45:26 2328 3

转载 apache kafka技术分享系列(目录索引)

目录索引：Kafka使用场景1.为何使用消息系统2.我们为何需要搭建Apache Kafka分布式系统3.消息队列中点对点与发布订阅区别kafka开发与管理：1）apache kafka消息服务2）kafak安装与使用3）apache kafka中server.properties配置文件参数说明4）Apa

2017-08-27 23:35:54 254

原创 RDD、DataFrame、Dataset介绍

rdd优点:编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销频繁的创建和销毁对象, 势必会增加GCval sparkconf = new SparkConf().setMaster

2017-08-27 20:33:25 664

一、合理的Kafka拉取量：设置Spark Streaming最大数据接收率 - 如果运行Streaming应用程序的资源不是很多，数据处理能力跟不上接收数据的速率，可以为应用程序设置一个每秒最大接收记录数进行限制。对于Receiver模式的应用，设置spark.streaming.receiver.maxRate，对于Direct Kafka模式，设置spark.streaming.kafka.

2017-08-27 18:10:15 1160

原创 sparkstreaming读取kafka的两种方式

spark streaming提供了两种获取方式，一种是同storm一样，实时读取缓存到内存中;另一种是定时批量读取。这两种方式分别是：Receiver-baseDirect一、Receiver-base：Spark官方最先提供了基于Receiver的Kafka数据消费模式。不过这种方式是先把数据从kafka中读取出来，然后缓存在内存，再定

2017-08-27 13:59:28 33209

转载 Shell基础

一、Shell中的变量　　任何编程语言中，有关变量的定义，作用范围，赋值等都是最最基础的知识。0、默认变量　　首先介绍几个shell中的默认变量。　　变量含义$0当前脚本名称$1脚本接收的第一个参数$2脚本接收的第二个参数$#脚本接收的所

2017-08-10 19:35:10 618

gongpulin的博客