- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 详解RDD、DataFrame、DataSet的关系
在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性:1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,...
2018-09-29 10:46:44 328
原创 Flume + Kafka +HDFS构建日子系统实例
Flume + kafka + HDFS构建日志采集系统 Flume是一个非常优秀日志采集组件,类似于logstash,我们通常将Flume作为agent部署在application server上,用于收集本地的日志文件,并将日志转存到HDFS、kafka等数据平台中;关于Flume的原理和特性,我们稍后详解,本文只简述如何构建使用Flume + kafka + HDFS构建一套...
2018-09-16 18:04:16 557
原创 单利模式之最佳方案
可以说单例模式是所有设计模式中最简单的一种。单例模式就是说系统中对于某类的只能有一个对象,不可能出来第二个。单例模式也是23中设计模式中在面试时少数几个会要求写代码的模式之一。主要考察的是多线程下面单例模式的线程安全性问题。1.多线程安全单例模式实例一(不使用同步锁)1 public class Singleton {2 private static Singlet...
2018-09-16 11:37:24 194
转载 SQL之join详解
inner join(等值连接) 只返回两个表中联结字段相等的行left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录 INNER JOIN 语法: INNER JOIN 连接两个数据表的用法:SELECT * FROM 表1 INNER JOIN 表2 ON...
2018-09-14 21:22:18 938
转载 消息队列
作为中间件,消息队列是分布式应用间交换信息的重要组件。消息队列可驻留在内存或磁盘上, 队列可以存储消息直到它们被应用程序读走。通过消息队列,应用程序可以在不知道彼此位置的情况下独立处理消息,或者在处理消息前不需要等待接收此消息。所以消息队列可以解决应用解耦、异步消息、流量削锋等问题,是实现高性能、高可用、可伸缩和最终一致性架构中不可以或缺的一环。下面对消息队列就直接使用MQ表示。现在比较常...
2018-09-10 17:23:51 326
原创 Kafka(内部详解)如何保证数据的一致性
数据一致性保证一致性定义:若某条消息对client可见,那么即使Leader挂了,在新Leader上数据依然可以被读到HW-HighWaterMark: client可以从Leader读到的最大msg offset,即对外可见的最大offset, HW=max(replica.offset)对于Leader新收到的msg,client不能立刻消费,Leader会等待该消息被所有ISR中的re...
2018-09-07 19:42:48 17361
转载 GC--原理和常见回收算法
一. 原理GC是垃圾收集的意思(Garbage Collection),内存处理是编程人员容易出现问题的地方,忘记或者错误的内存回收会导致程序或系统的不稳定甚至崩溃,Java提供的GC功能可以自动监测对象是否超过作用域从而达到自动回收内存的目的,Java语言没有提供释放已分配内存的显示操作方法。简而言之,GC是将java的无用的堆对象进行清理,释放内存,以免发生内存泄露二 . ...
2018-09-03 20:06:01 196
原创 spark任务生成和提交流程详解
首先将代码打包上传到集群1、Driver端会调用SparkSubmit类(内部执行submit->doRunMain->通过反射获取应用程序的主类对象->执行主类的main方法)2、构建sparkConf和sparkContext对象,在sparkContext入口做了三件事,创建了sparkEnv对象(创建了ActorSystem对象)TaskScheduler(用来生...
2018-09-02 18:11:48 1548
转载 Hadoop、Spark五种大数据框架解析
Hadoop、Spark等5种大数据框架对比,你的项目该用哪种? 本文将介绍并对比5种主流大数据框架,助你更深层次了解这些框架,从而在项目中更好地使用它们。 本文首发于InfoQ垂直号「大数据杂谈」,转载已获授权。 简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的...
2018-09-02 12:05:33 2181
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人