吾心光明

我的梦

数据库学习进阶一

一:问题的产生:在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是如果将应用系统提交实际应用后,随着数据库中数据的增加,系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化...

2016-12-21 20:17:44

阅读数 3737

评论数 0

Spark数据倾斜解决原理和方法总论

本博文主要包含以下内容:1、Spark数据倾斜解决的原理方法总论 2、Spark数据倾斜解决方法总论一:均衡数据是我们的目标,或者说我们要解决数据倾斜的发力点。一般说shuffle是产生数据倾斜的主要原因,为什么shuffle产生数据倾斜主要是因为网络通信,如果计算之前通过ETL(ETL(Ext...

2016-09-10 12:41:05

阅读数 3176

评论数 0

Spark系列之数据倾斜:数据倾斜之痛

本博文的主要内容包括: Spark性能真正的杀手 数据倾斜多么痛 1、关于性能调优首先谈数据倾斜,为什么? (1)因为如果数据倾斜,其他所有的调优都是笑话,因为数据倾斜主要导致程序跑步起来或者运行状态不可用。 (2)数据倾斜最能代表spark水平的地方,spark是分布式的,如...

2016-09-10 08:30:27

阅读数 1441

评论数 0

Spark Streaming生成RDD并执行Spark Job源码内幕解密

本博文主要包含以下内容: DStream产生RDD的案例实战演示 DStream作为RDD模板的原理机制 常见DStream生产RDD源码解密 这种常见的DStream包含三种类型,一种是输入的级别的InputDStream,第二种transformationDStream,第三种输出级别的For...

2016-09-08 08:10:09

阅读数 1214

评论数 0

Spark Streaming源码解读之RDD生成全生命周期彻底研究和思考

本博文内容主要是 : DStream与RDD关系彻底研究 Streaming中RDD的生成彻底研究 问题的提出 :   1、RDD是依靠谁产生的? 如何产生RDD?  2、执行时是否与Spark Core上的RDD执行有什么不同的  3、 运行之后对RDD要怎么处理    为什么有第三点 : 是因...

2016-09-03 10:06:29

阅读数 1602

评论数 0

Spark Streaming源码解读之JobScheduler内幕实现和深度思考

本博文内容主要包括:1、JobScheduler内幕实现 2、JobScheduler深度思考一:JobScheduler内幕实现:JobScheduler的地位非常的重要,所有的关键都在JobScheduler,它的重要性就相当于是Spark Core当中的DAGScheduler,因此,我们...

2016-09-01 11:06:31

阅读数 993

评论数 0

动手实战联合使用Spark Streaming、Broadcast、Accumulator计数器实现在线黑名单过滤和计数

本博文主要包括: 1、Spark Streaming与Broadcast、Accumulator联合 2、在线黑名单过滤和计数实战一、Spark Streaming与Broadcast、Accumulator联合:在企业实战中,广播本身广播到集群的时候,联合上计数器的话就有很大杀伤力,这时候你...

2016-08-31 17:10:45

阅读数 2858

评论数 0

Spark Streaming源码解读之Job动态生成和深度思考

本博文主要包含以下内容:1、 Spark Streaming Job 生成深度思考 2 、Spark Streaming Job 生成源码解析一 :Spark Streaming Job 生成深度思考输入的DStream有很多来源Kafka、Socket、Flume,输出的DStream其实是逻...

2016-08-30 10:20:06

阅读数 1936

评论数 0

基于案例贯通 Spark Streaming 流计算框架的运行源码

本博文主要内容包括:1 在线动态计算分类分类最热门商品案例回顾与演示 2 基于案例贯穿Spark Streaming的运行源码一:在线动态计算分类最热门商品案例代码:import com.robinspark.utils.ConnectionPool import org.apache.spa...

2016-08-28 10:15:09

阅读数 1529

评论数 0

使用Spark Streaming实战对网站动态行为的多维度分析

本博文主要包括以下内容: 1、技术分析 2、实现实战/** * * 论坛数据自动生成代码,该生成数据回座位Producer的方式发送给Kafka,然后通过SparkStreaming程序会从 * Kafka中在线Pull到论坛或者网站的用户在线行为信息,进而进行多维度的在线分析 * d...

2016-08-27 09:48:25

阅读数 2466

评论数 0

Spark Streaming的Exactly-One的事务处理

本博文主要内容: Exactly once容错 数据输出不重复 一、Exactly once:1、 什么是事务处理: a) 能够处理且只被处理一次。例如,银行转账,A转给B,A有且仅转一次。 b) 能够输出,且只能够输出一次。而B接收转账,且直接收一次。Spark Streaming的事务处理...

2016-08-26 19:54:30

阅读数 836

评论数 0

Spark Streaming 结合Spark SQL 案例

本博文主要包含以下内容: String+SQL技术实现解析 Streaming+SQL实现实战 一:SparkString+SparkSQL技术实现解析:使用Spark Streaming + Spark SQL 来在线计算电商中不同类别中最热门的商品排名,例如手机这个类别下面最热门的三种手机、电...

2016-08-26 15:58:31

阅读数 7820

评论数 0

解密SparkStreaming运行机制和架构进阶之Job和容错

本博文主要包括以下内容: 解密Spark Streaming Job架构和运行机制 解密Spark Streaming容错架构和运行机制 一、解密SparkStreaming Job架构和运行机制:理解SparkStreaming的Job的整个架构和运行机制对于精通SparkStreaming是至...

2016-08-25 18:57:42

阅读数 1410

评论数 0

通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中

本博文主要内容包括: 技术实现foreachRDD与foreachPartition解析 foreachRDD与foreachPartition实现实战 一:技术实现foreach解析:1、首先我们看一下Output Operations on DStreams提供的API: SparkSt...

2016-08-25 16:03:04

阅读数 9907

评论数 0

通过案例对SparkStreaming透彻理解(2)

本博文主要内容包括:  1. Spark Streaming架构  2. Spark Streaming运行机制一、Spark Streaming的架构分析:1、SparkStreaming运行时更像SparkCore上的应用程序,SparkStreaming程序启动后会启动很多job,每个bat...

2016-08-25 08:14:14

阅读数 3278

评论数 0

通过Spark Streaming的window操作实战模拟热点搜索词案例实战

本博文主要内容包括:1、在线热点搜索词实现解析 2、SparkStreaming 利用reduceByKeyAndWindow实现在线热点搜索词实战一:在线热点搜索词实现解析背景描述:在社交网络(例如微博),电子商务(例如京东),热搜词(例如百度)等人们核心关注的内容之一就是我所关注的内容中,大...

2016-08-24 08:05:29

阅读数 2944

评论数 0

通过案例对SparkStreaming透彻理解(1)

本博文主要包含内容为:1、spark streaming另类在线实验 2、瞬间理解spark streaming本质一,对SparkStreaming的深入理解:1、 首先为何从Spark Streaming切入Spark定制?Spark的子框架已有若干,为何选择Spark Streaming?...

2016-08-23 16:00:58

阅读数 7667

评论数 0

SparkStreaming 实现广告计费系统中在线黑名单过滤实战

本博文内容主要包括以下内容:1、在线黑名单过滤实现解析 2、SparkStreaming实现在线黑名单过滤 一、在线黑名单过滤实现解析:流式处理是现代数据处理的主流,各种电子商务网站,搜索引擎等网站等,都需要做流式比如,通过用户的点击和购买来推断出用户的兴趣爱好,后台能实时计算,这是比较重要的,...

2016-08-23 09:23:30

阅读数 1727

评论数 0

Spark Streaming updateStateByKey案例实战和内幕源码解密

本博文内容主要包括以下两个方面:1、Spark Streaming updateStateByKey案例实战 2、Spark Streaming updateStateByKey源码解密一、Spark Streaming updateStateByKey简介:updateStateByKey的主...

2016-08-22 17:30:23

阅读数 1464

评论数 0

SparkStreming中的Transformations和状态管理

本博文内容主要包括:1、SparkStreaming 中的Transformations 2、SparkStreaming 中的状态管理一:SparkStreaming中的Transformation: 1、DStream就是一个RDD之上的一个抽象,DStream和时间结合起来就不断的触发产...

2016-08-22 15:48:18

阅读数 1073

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭