当前搜索:

[Spark基础]--spark core参数优化(针对spark-2.x.x以下版本)

写在前面文中大部分是摘自美团点评的文章(原文-->https://tech.meituan.com/spark-tuning-basic.html)文中添加了我自己的理解       Spark资源调优       我们在开发完Spark程序之后,就该为作业配置合适的资源了。...
阅读(20) 评论(0)

[Spark基础]--闭包清理类ClosureCleaner

什么是spark闭包?      我的理解:函数可以访问函数外面的变量,但是函数内对变量的修改,在函数外是不可见的。      计算机中的理解:在计算机科学中,闭包(Closure)是词法闭包(Lexical Closure)的简称,是引用了自由变量的函数。 这个被引用的自由变量将和这个函数一同存...
阅读(19) 评论(0)

[Spark基础]--理解Spark闭包

理解Spark的闭包       对于Spark来说, 最困难的事情之一就是在跨集群执行代码时了解变量和方法的范围和生命周期。RDD 在其范围之外修改变量的操作可能会经常引起混淆。在下面的示例中, 我们将查看使用 foreach () 递增计数器的代码, 但其他操作也可能发生类似的问题。举例   ...
阅读(15) 评论(0)

[Scala基础]--Either介绍

原文链接:https://windor.gitbooks.io/beginners-guide-to-scala/content/chp7-the-either-type.html类型 Either上一章介绍了 Try,它用函数式风格来处理程序错误。 这一章我们介绍一个和 Try 相似的类型 - ...
阅读(6) 评论(0)

[Spark streaming 基础]--使用低阶API消费Kafka数据(手动更新offset)

版本:spark(1.6.0)+kafka(0.9.0)+zookeeper(3.4.6)      由于目前spark每天需要从kafka中消费数亿条左右的消息,集群压力比较大,会导致job不同程度的异常退出。原来使用spark1.6.0版本中的createStream函数,但是在数据处理速度跟...
阅读(69) 评论(0)

[Spark streaming基础]--消费Kafka的方式对比(Receiver-based Approach vs Direct Approach)

原文链接:https://www.jianshu.com/p/b4af851286e5前言这个算是Spark Streaming 接收数据相关的第三篇文章了。 前面两篇是:Spark Streaming 数据产生与导入相关的内存分析Spark Streaming 数据接收优化Spark Strea...
阅读(36) 评论(0)

[HBase基础]--namespace介绍

原文:http://hbase.apache.org/book.html#_namespacenamespace是一个类似于关系数据库的逻辑分组表数据库系统。 这种抽象奠定了基础为即将到来的多租户相关功能:Quota Management( hbase - 8410 )——限制资源的数量(即地区,...
阅读(49) 评论(0)

[Kafka调优]--调优Apache Kafka集群

本文转自:http://www.cnblogs.com/huxi2b/p/6936348.html今天带来一篇译文“调优Apache Kafka集群”,里面有一些观点并无太多新颖之处,但总结得还算详细。该文从四个不同的目标出发给出了各自不同的参数配置,值得大家一读~ 原文地址请参考:https:/...
阅读(23) 评论(1)

[数据库sql语言]--DDL、DCL、DML和TCL介绍

SQL语言分为四种主要语言语句:DML,DDL,DCL和TCL。 使用这些语句,我们可以通过创建和更改数据库对象来定义数据库的结构,并且可以通过更新或删除操作表中的数据。 我们还可以控制哪些用户可以读/写数据或管理事务以创建单个工作单元。SQL语句的四个主要类别如下所示:DML (Data Man...
阅读(30) 评论(0)

[Spark进阶]--map 和 flatMap 简要说明

1、举例说明先看一下例子,输入2行数据:val rdd = sc.parallelize(Seq("Roses are red", "Violets are blue")) // lines rdd.collect ...
阅读(20) 评论(2)

[换工作]--换工作的准备

前言 关于换上东家,呵呵,不同的行业,可能情况不同,但是当然还是需要深思熟虑了。1、辞职准备,不能说想走就马上走吧请看这篇文章,如何优雅地交接工作2、找工作的准备,总不能辞掉工作了就随便找一个吧,少侠不是这样的人方向很重要,比如公司类型、你的期望和职业规划是否吻合等了解先面试经历,再有针...
阅读(139) 评论(0)

[工作交接]--如何优雅地交接工作

请看下面一张图:这让我不得不思考下,怎么样交接工作才能对公司负责、对自己负责和有利于后继者优雅地上位!一、离职交接1、项目交接的场景同事离职,将工作交接给自己。自己离职,将工作交接给同事。项目变动,将工作交给其他项目组。2、为什么要交接交接的目的是项目的延续,不能因为人员的流动(IT行业人才流动率...
阅读(160) 评论(0)

[Spark优化]--解决Spark数据倾斜(Data Skew)的N种姿势

本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key...
阅读(40) 评论(0)

[Kafka设计解析]--(八)Exactly Once语义与事务机制原理

本文转发自技术世界,原文链接 http://www.jasongj.com/kafka/transaction/写在前面的话本文所有Kafka原理性的描述除特殊说明外均基于Kafka 1.0.0版本。为什么要提供事务机制Kafka事务机制的实现主要是为了支持Exactly Once即正好一次语义操...
阅读(40) 评论(0)

[Kafka设计解析]--(七)Kafka Stream

本文转发自技术世界,原文链接 http://www.jasongj.com/kafka/kafka_stream/Kafka Stream背景Kafka Stream是什么Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。它是提供了对存储于Kafka内的数...
阅读(38) 评论(0)

[Kafka设计解析]--(六)Kafka高性能架构之道

本文转发自技术世界,原文链接 http://www.jasongj.com/kafka/high_throughput/摘要上一篇文章《Kafka设计解析(五)- Kafka性能测试方法及Benchmark报告》从测试角度说明了Kafka的性能。本文从宏观架构层面和具体实现层面分析了Kafka如何...
阅读(50) 评论(0)

[Kafka设计解析]--(五)Kafka性能测试方法及Benchmark报告

本文转发自技术世界,原文链接:http://www.jasongj.com/2015/12/31/KafkaColumn5_kafka_benchmark摘要  本文主要介绍了如何利用Kafka自带的性能测试脚本及Kafka Manager测试Kafka的性能,以及如何使用Kafka Manage...
阅读(75) 评论(0)

[Kafka设计解析]--(四)Kafka Consumer设计解析

本文转发自技术世界,原文链接 http://www.jasongj.com/2015/08/09/KafkaColumn4摘要  本文主要介绍了Kafka High Level Consumer,Consumer Group,Consumer Rebalance,Low Level Consume...
阅读(45) 评论(0)

[Kafka设计解析]--(三) Kafka High Availability (下)

本文转发自技术世界,原文链接 http://www.jasongj.com/2015/06/08/KafkaColumn3摘要  本文在上篇文章基础上,更加深入讲解了Kafka的HA机制,主要阐述了HA相关各种场景,如Broker failover,Controller failover,Topi...
阅读(22) 评论(0)

[Kafka设计解析]--(二)Kafka High Availability (上)

本文转发自技术世界,原文链接 http://www.jasongj.com/2015/04/24/KafkaColumn2摘要  Kafka在0.8以前的版本中,并不提供High Availablity机制,一旦一个或多个Broker宕机,则宕机期间其上所有Partition都无法继续提供服务。若...
阅读(46) 评论(0)
    个人资料
    专栏达人 持之以恒
    等级:
    访问量: 100万+
    积分: 1万+
    排名: 1117
    博客专栏
    Spark

    文章:39篇

    阅读:54294
    Scala

    文章:48篇

    阅读:67886
    Flink

    文章:1篇

    阅读:650
    Java

    文章:58篇

    阅读:112083
    Kafka

    文章:15篇

    阅读:11706
    最新评论