自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

spark的自由牧场的博客

专注大数据的学习博客

  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 Kafka-manager 安装

Kafka-manager的安装git源码地址: https://github.com/yahoo/kafka-manager/tree/master 参考博客:https://blog.csdn.net/isea533/article/details/73727485 环境准备: – java 8 – kafka-manager – sbt 步骤: - 1:下载源码编译...

2018-06-20 09:19:05 425

原创 使用Python写spark 示例

个人GitHub地址: https://github.com/LinMingQiang为什么要使用Python来写SparkPython写spark我认为唯一的理由就是:你要做数据挖掘,AI相关的工作。因为很多做数挖的他们的基础语言都是python,他们如果重新学scala比较耗时,而且,python他的强大类库是他的优势,很多算法库只有python有。Win本地编写代码调试编...

2018-01-23 09:26:10 17446

原创 Spark的Transform算子和Action算子列举和示例

参考资料:http://www.cnblogs.com/zlslch/p/5723857.html :http://www.cnblogs.com/liuzhongfeng/p/5285613.htmlSpark 算子概念Transformation 变换/转换:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从

2017-08-22 11:34:57 8296

转载 Spark 数据倾斜 join 调优

原文出处:https://tech.meituan.com/spark-tuning-pro.html前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能

2017-08-17 13:22:52 8362 3

原创 Storm+Kafka+Hbase的wordcount统计

Storm介绍Storm是Twitter开源的分布式实时大数据处理框架,最早开源于github,从0.9.1版本之后,归于Apache社区。Strom是一个实时处理的框架,跟sparkstreaming的准实时的有本质的区别,storm对数据的处理是以条为单位,sparkstreaming是以时间为单位。Storm的特点编程简单:开发人员只需要关注应用逻辑,而且跟Hadoop类似,Storm提供的编

2017-08-16 13:59:14 879 1

原创 Spark Kudu 结合

Kudu的背景Hadoop中有很多组件,为了实现复杂的功能通常都是使用混合架构,Hbase:实现快速插入和修改,对大量的小规模查询也很迅速HDFS/Parquet + Impala/Hive:对超大的数据集进行查询分析,对于这类场景, Parquet这种列式存储文件格式具有极大的优势。HDFS/Parquet + Hbase:这种混合架构需要每隔一段时间将数据从hbase导出成Parquet文

2017-05-24 17:27:05 14473

原创 Splunk安装和使用

SplunkSplunk概念 Splunk 是机器数据的引擎。使用 Splunk 可收集、索引和利用所有应用程序、服务器和设备(物理、虚拟和云中)生成的快速移动型计算机数据 。从一个位置 搜索并分析所有实时和历史数据。 使用 Splunking 处理计算机数据,可让您在几分钟内(而不是几个小时或几天)解决问题和调查安全事件。监视您的端对端基础结构,避免服务性能降低或中断。

2017-03-30 20:58:19 29357 1

原创 SparkStreaming的log4j日志记录

博客前言为什么我们要写日志 基本上每个程序都要有日志记录的功能,日志的记录最重要的用处就是监控程序的运行状态和错误查找。如果程序没有写日志,那程序就像瞎子一样,瞎跑,你都不知道为什么数据不对,为什么程序报错,程序运行成功还是失败。在流式计算Sparkstreaming中,日志的记录是非常重要的;因为流式计算是需要7*24小时一直运行的,你不记日志你根本不知道程序运行成功还是错误(当然你可以通过s

2017-02-24 12:03:10 7903 26

原创 Sparkstreaming中InputDStream的详解(源码)

SocketInputDStream继承自ReceiverInputDStream使用Receiver的方式从源数据获取数据解读分两个部分获取数据 获取一个接收数据的类 这个类继承 Receiver Receiver的接收方式需要将数据存在内存或者其他地方,所以Receiver又个内存消耗。 在OnStart里面启动一个线程进行数据获取 获取一个socket的流。然后不停地取和使用st

2017-02-06 14:37:36 3661

原创 Spark获取Kafka数据的两种方式(源码)

简单解析一下DirectKafkaInputDStream的概念1:获取kafka数据 由于DirectKafkaInputDStream 不是继承自ReceiverInputDStream。所以不需要有Receiver 所以也就没有获取数据,然后将数据存在内存block里面,也就没有block信息等等 2:读取数据 使用Direct的方式的好处之一就是,在要使用数据的时候才去取数据。 在

2017-02-06 14:11:51 6524 2

原创 SparkStreaming的运行流程解析(源码)

ssc.start()启动receiverTracker.start去获取数据启动jobGenerator.start去计算数据receiverTracker.start 在这里的receiverinputStreams其实已经实例化了。在inputDStream的时候已经往ssc.graph中添加了实例(具体去看下我的Sparkstreaming中InputDStream的详解(源码)那篇博客)

2017-02-06 14:06:25 2323 1

原创 Spark的RDD详解和自定义RDD(源码)

RDD概论具体概念百度(以下总结):Spark中 RDD本身并不是数据,只是数据信息的集合。里面包含数据的分区信息;和获取数据的方式;Spark有很多类型的RDD;getPartitions只运行一次;compute每次有action算子的时候都会运行,一个partition一次。NewHadoopRDD根据id(rdd的id)生成一个Jobid 获取分区的方式,是根据inputFormatC

2017-02-06 13:34:55 4417 1

原创 spark中Stage的划分

窄依赖和宽依赖窄依赖:指父RDD的每一个分区最多被一个子RDD的分区所用,表现为一个父RDD的分区对应于一个子RDD的分区,和两个父RDD的分区对应于一个子RDD 的分区。图中,map/filter和union属于第一类,对输入进行协同划分(co-partitioned)的join属于第二类。宽依赖:指子RDD的分区依赖于父RDD的所有分区,这是因为shuffle类操作,如图中的groupByKey

2017-02-06 09:48:28 18233 6

OpenCV入门教程

java开发 OpenCV入门教程

2015-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除