LonelysWorld-CSDN博客

原创 Kafka-manager 安装

Kafka-manager的安装git源码地址： https://github.com/yahoo/kafka-manager/tree/master 参考博客：https://blog.csdn.net/isea533/article/details/73727485 环境准备： – java 8 – kafka-manager – sbt 步骤： - 1：下载源码编译...

2018-06-20 09:19:05 425

原创使用Python写spark 示例

个人GitHub地址： https://github.com/LinMingQiang为什么要使用Python来写SparkPython写spark我认为唯一的理由就是：你要做数据挖掘，AI相关的工作。因为很多做数挖的他们的基础语言都是python，他们如果重新学scala比较耗时，而且，python他的强大类库是他的优势，很多算法库只有python有。Win本地编写代码调试编...

2018-01-23 09:26:10 17446

原创 Spark的Transform算子和Action算子列举和示例

参考资料：http://www.cnblogs.com/zlslch/p/5723857.html ：http://www.cnblogs.com/liuzhongfeng/p/5285613.htmlSpark 算子概念Transformation 变换/转换：这种变换并不触发提交作业，完成作业中间过程处理。Transformation 操作是延迟计算的，也就是说从

2017-08-22 11:34:57 8296

原文出处：https://tech.meituan.com/spark-tuning-pro.html前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能

2017-08-17 13:22:52 8362 3

原创 Storm+Kafka+Hbase的wordcount统计

Storm介绍Storm是Twitter开源的分布式实时大数据处理框架，最早开源于github，从0.9.1版本之后，归于Apache社区。Strom是一个实时处理的框架，跟sparkstreaming的准实时的有本质的区别，storm对数据的处理是以条为单位，sparkstreaming是以时间为单位。Storm的特点编程简单：开发人员只需要关注应用逻辑，而且跟Hadoop类似，Storm提供的编

2017-08-16 13:59:14 879 1

原创 Spark Kudu 结合

Kudu的背景Hadoop中有很多组件，为了实现复杂的功能通常都是使用混合架构，Hbase：实现快速插入和修改，对大量的小规模查询也很迅速HDFS/Parquet + Impala/Hive：对超大的数据集进行查询分析，对于这类场景， Parquet这种列式存储文件格式具有极大的优势。HDFS/Parquet + Hbase:这种混合架构需要每隔一段时间将数据从hbase导出成Parquet文

2017-05-24 17:27:05 14473

原创 Splunk安装和使用

SplunkSplunk概念 Splunk 是机器数据的引擎。使用 Splunk 可收集、索引和利用所有应用程序、服务器和设备（物理、虚拟和云中）生成的快速移动型计算机数据。从一个位置搜索并分析所有实时和历史数据。使用 Splunking 处理计算机数据，可让您在几分钟内（而不是几个小时或几天）解决问题和调查安全事件。监视您的端对端基础结构，避免服务性能降低或中断。

2017-03-30 20:58:19 29357 1

原创 SparkStreaming的log4j日志记录

博客前言为什么我们要写日志基本上每个程序都要有日志记录的功能，日志的记录最重要的用处就是监控程序的运行状态和错误查找。如果程序没有写日志，那程序就像瞎子一样，瞎跑，你都不知道为什么数据不对，为什么程序报错，程序运行成功还是失败。在流式计算Sparkstreaming中，日志的记录是非常重要的；因为流式计算是需要7*24小时一直运行的，你不记日志你根本不知道程序运行成功还是错误（当然你可以通过s

2017-02-24 12:03:10 7903 26

原创 Sparkstreaming中InputDStream的详解（源码）

SocketInputDStream继承自ReceiverInputDStream使用Receiver的方式从源数据获取数据解读分两个部分获取数据获取一个接收数据的类这个类继承 Receiver Receiver的接收方式需要将数据存在内存或者其他地方，所以Receiver又个内存消耗。在OnStart里面启动一个线程进行数据获取获取一个socket的流。然后不停地取和使用st

2017-02-06 14:37:36 3661

原创 Spark获取Kafka数据的两种方式（源码）

简单解析一下DirectKafkaInputDStream的概念1：获取kafka数据由于DirectKafkaInputDStream 不是继承自ReceiverInputDStream。所以不需要有Receiver 所以也就没有获取数据，然后将数据存在内存block里面，也就没有block信息等等 2：读取数据使用Direct的方式的好处之一就是，在要使用数据的时候才去取数据。在

2017-02-06 14:11:51 6524 2

原创 SparkStreaming的运行流程解析（源码）

ssc.start()启动receiverTracker.start去获取数据启动jobGenerator.start去计算数据receiverTracker.start 在这里的receiverinputStreams其实已经实例化了。在inputDStream的时候已经往ssc.graph中添加了实例(具体去看下我的Sparkstreaming中InputDStream的详解（源码）那篇博客)

2017-02-06 14:06:25 2323 1

原创 Spark的RDD详解和自定义RDD（源码）

RDD概论具体概念百度（以下总结）：Spark中 RDD本身并不是数据，只是数据信息的集合。里面包含数据的分区信息；和获取数据的方式；Spark有很多类型的RDD；getPartitions只运行一次；compute每次有action算子的时候都会运行，一个partition一次。NewHadoopRDD根据id（rdd的id）生成一个Jobid 获取分区的方式，是根据inputFormatC

2017-02-06 13:34:55 4417 1

原创 spark中Stage的划分

窄依赖和宽依赖窄依赖：指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父RDD的分区对应于一个子RDD的分区，和两个父RDD的分区对应于一个子RDD 的分区。图中，map/filter和union属于第一类，对输入进行协同划分（co-partitioned）的join属于第二类。宽依赖：指子RDD的分区依赖于父RDD的所有分区，这是因为shuffle类操作，如图中的groupByKey

2017-02-06 09:48:28 18233 6

spark的自由牧场的博客