自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

转载 Hadoop生态系统各组件与Yarn的兼容性如何?

作为Hadoop 2.0中出现的资源管理系统,Yarn总体上仍然是master/slave结构,在整个资源管理框架中,resourcemanager为master,nodemanager是slave。作为Hadoop生态系统的一部分,Yarn要想获得市场认可,必须学会与Hadoop生他系统中其...

2018-12-24 19:58:00 185

转载 深度预警:深入理解HBase的系统架构

HBase的构成 物理上来说,HBase是由三种类型的服务器以主从模式构成的。这三种服务器分别是:Region server,HBase HMaster,ZooKeeper。 其中Region server负责数据的读写服务。用户通过沟通Region server来实现对数据的访问。 H...

2018-12-24 17:28:00 129

转载 小议Lambda与Kappa架构,不可变数据的计算探索

Lambda架构说起来也很简单,就是通过分布式系统的组件搭建,设计出一个具有鲁棒性,可扩展,低延时的分布式计算系统。之所以称之为Lambda架构,就是它最为核心的点就是理由了数据处理过程之中的不可变性与无依赖性。 Lambda架构说起来也很简单,就是通过分布式系统的组件搭建,设计出一个具有鲁...

2018-12-23 16:24:00 221

转载 大数据分析技术与实战之 Spark Streaming

Spark是基于内存的大数据综合处理引擎,具有优秀的作业调度机制和快速的分布式计算能力,使其能够更加高效地进行迭代计算,因此Spark能够在一定程度上实现大数据的流式处理。 随着信息技术的迅猛发展,数据量呈现出爆炸式增长趋势,数据的种类与变化速度也...

2018-12-23 10:16:00 229

转载 解读 2018:13 家开源框架谁能统一流计算?

2018 年接近尾声,I我策划了“解读 2018”年终技术盘点系列文章,希望能够给读者清晰地梳理出重要技术领域在这一年来的发展和变化。本文是实时流计算 2018 年终盘点,作者对实时流计算技术的发展现状进行了深入剖析,并对当前大火的各个主流实时流计算框架做了全面、客观的对比,同时对未来流计算可...

2018-12-21 19:22:00 117

转载 阿里重磅开源 Blink:为什么我们等了这么久?

今年,实时流计算技术开始步入主流,各大厂都在不遗余力地试用新的流计算框架,实时流计算引擎和 API 诸如 Spark Streaming、Kafka Streaming、Beam 和 Flink 持续火爆。阿里巴巴自 2015 年开始改进 Flink,并创建了内部分支 Blink,目前服务于阿...

2018-12-21 17:06:00 107

转载 Kafka集群内复制功能深入剖析

Kafka是一个分布式发布订阅消息系统。由LinkedIn开发并已经在2011年7月成为apache顶级项目。kafka在LinkedIn, Twitte等许多公司都得到广泛使用,主要用于:日志聚合,消息队列,实时监控等。 0.8版本开始,kafka支持集群内复制,从而提高可用性和系统稳定性...

2018-12-20 20:58:00 69

转载 SpringBoot集成Kafka实现消息上报

一、该篇博客使用技术版本 SpringBoot:1.5.9.RELEASE zookeeper:zookeeper-3.4.5 kafka:kafka_2.10-0.10.2.1 二、SpringBoot集成Kafka 1、首先修改kafka的serve...

2018-12-20 19:40:00 347

转载 实时计算——聊一聊我所经历的计算框架

在聊实时计算之前,先说一下我对离线和批量、实时和流式的一些看法。 我们首先来简单看一下计算任务的大致流程: 首先先说下批量计算和流式计算: 图中显示了一个计算的基本流程,receiver处负责从数据源接收数据,并发送给下游的task,数据由task处理后由sink端输出。 以图为例...

2018-12-19 20:29:00 438

转载 为什么你的大数据项目会失败

本文列举了实施大数据项目遇到的问题,并针对这些问题提出了解决办法。 错误的使用方法 企业往往会犯下两种错误,要么构建起一套过分激进、自己根本无法驾驭的大数据项目,要么尝试利用传统数据技术处理大数据问题。无论是哪种情况,都很有可能导致项目陷入困境。 提出错误的问题 ...

2018-12-19 14:17:00 132

转载 Hadoop运行在Kubernetes平台实践

Hadoop与Kubernetes就好像江湖里的两大绝世高手,一个是成名已久的长者,至今仍然名声远扬,一个则是初出茅庐的青涩少年,骨骼惊奇,不走寻常路,一出手便惊诧了整个武林。 Hadoop与Kubernetes就好像江湖里的两大绝世高手,一个是成名已久的长者,至今仍然名声远扬,一个则是初出...

2018-12-18 15:48:00 182

转载 没有什么内存问题,是一行Python代码解决不了的

大数据学习的小诀窍》》 内存不足是项目开发过程中经常碰到的问题,我和我的团队在之前的一个项目中也遇到了这个问题,我们的项目需要存储和处理一个相当大的动态列表,测试人员经常向我抱怨内存不足。但是最终,我们通过添加一行简单的代码解决了这个问题。 结果如图所示: 我将在下面解释它的工...

2018-12-18 15:37:00 125

转载 大数据就业前景分析的太到位了、

大数据学习资料 大数据广泛应用于电网运行、经营管理及优质服务等各大领域,并正在改变着各行各业,也引领了大数据人才的变革。大数据专业就业前景怎么样?这对于在就业迷途中的我们是一个很重要的信息。 随着大数据时代的到来【这次国家教育部也改革动真格了】,程序员们仅有的一点点竞争力很快就不复存在,为...

2018-12-17 20:43:00 354

转载 十分钟了解大数据处理的五大关键技术及其应用

BAT大数据开发工程师怎么样练成的 数据处理是对纷繁复杂的海量数据价值的提炼,而其中最有价值的地方在于预测性分析,即可以通过数据可视化、统计模式识别、数据描述等数据挖掘形式帮助数据科学家更好的理解数据,根据数据挖掘的结果得出预测性决策。其中主要工作环节包括: 大数据采集、 ...

2018-12-17 20:32:00 190

转载 2018最新BAT大数据面试题答案

BAT企业大数据专业技术知识讲解 1、kafka的message包括哪些信息 一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成 header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当mag...

2018-12-17 19:25:00 329

转载 滴滴 Elasticsearch 多集群架构实践

从java半年成为大数据开发 Elasticsearch 是基于 Lucene 实现的分布式搜索引擎,提供了海量数据实时检索和分析能力。Elastic 公司开源的一系列产品组成的 Elastic Stack,可以为日志服务、搜索引擎、系统监控等提供简单、易用的解决方案。 滴滴 Elast...

2018-12-17 16:18:00 170

转载 Spark 持久化(缓存)

如前所述,Spark RDD 是惰性求值的,而有时我们希望能多次使用同一个RDD。如果简单地对RDD 调用行动操作,Spark 每次都会重算RDD 以及它的所有依赖。这在迭代算法中消耗格外大,因为迭代算法常常会多次使用同一组数据。 var input = sc.parallelize...

2018-12-16 17:49:00 85

转载 数据架构师必读:常见的七种Hadoop和Spark项目案例

如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大...

2018-12-16 17:43:00 56

转载 MR、Spark浅析

一、两者执行流程: 1.spark执行流程: 1.driver跟master建立连接并申请资源 2.Master进行资源调度 3.Master跟worker进行rpc通信,worker启动Executer 4.启动Executor 5.Executor跟driver进行通信 6.Rdd触发ac...

2018-12-16 17:37:00 121

转载 Spark资源调度和任务调度过程介绍

一、前述 Spark的资源调度是个很重要的模块,只要搞懂原理,才能具体明白Spark是怎么执行的,所以尤其重要。 自愿申请的话,本文分粗粒度和细粒度模式分别介绍。 二、具体 Spark资源调度流程图: Spark资源调度和任务调度的流程: 1、启动集群后,Worker节点会向M...

2018-12-16 17:16:00 90

转载 重磅消息:Kafka 团队修改 KSQL 开源许可证,禁止其作为 SaaS 产品来提供

在今年的十月份,MongoDB 宣布其开源许可证从 GNU AGPLv3 切换到 Server Side Public License (SSPL),十一月份,图数据库 Neo4j 也宣布企业版彻底闭源。就在昨天,Confluent 公司的联合创始人兼 CEO Jay Kreps 在 Conf...

2018-12-16 11:20:00 143

转载 Apache Spark常见的三大误解

最近几年关于Apache Spark框架的声音是越来越多,而且慢慢地成为大数据领域的主流系统。最近几年Apache Spark和Apache Hadoop的Google趋势可以证明这一点: 最近几年关于Apache Spark框架的声音是越来越多,而且慢慢地成为大数据领域的主流系统。最近几年...

2018-12-14 21:15:00 61

转载 阿里大数据架构师教你ZooKeeper安装配置!看了的都转发和关注了!

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易...

2018-12-14 20:48:00 53

转载 实践 | Kafka 不够好,智联招聘基于 Pulsar 打造企业级事件中心

消息队列作为智联招聘非常重要的平台级服务负责全业务线的消息投递。有很多非常典型的业务场景,我们用一个业务场景简历投递来说明消息队列为业务提供的支持 图 1. 简历投递业务 当 C 端用户发生一次简历投递的时候会先发送一条消息到消息队列服务,C 端中台、B 端中台以及平台级的基础...

2018-12-13 20:52:00 307

转载 Hadoop 真的要死了吗?

10 月 3 日,Hortonworks 宣布将与其主要竞争对手 Cloudera 合作创建一家年收入约为 7.3 亿美元、拥有 2,500 名客户、市场估值达 52 亿美元的公司,这令很多人感到意外。 Splice Machine 首席执行官 Monte Zweben 表示:“我认...

2018-12-13 20:47:00 34

转载 比拼 Kafka, 大数据分析新秀 Pulsar 到底好在哪

一年一度由世界知名科技媒体 InfoWorld 评选的 Bossie Awards 于 9 月 26 日公布,本次 Bossie Awards 评选出了最佳数据库与数据分析平台奖、最佳软件开发工具奖、最佳机器学习项目奖等多个奖项。在最佳开源数据库与数据分析平台奖中,之前曾连续两年入选的 ...

2018-12-13 17:00:00 66

转载 杠上 Spark、Flink?Kafka 为何转型流数据平台

1. 消息系统的演化历史 消息系统作为一个核心的基础架构组件由来已久,而且运用广泛。整个消息系统的演化进程,大致可以分为三个阶段: 1.0 时代:JMS 以及各种 MQ 2.0 时代:Kafka 的实时管道时代 3.0 时代:流数据平台时代 (Kafka 和 Pulsar) 1....

2018-12-13 14:05:00 115

转载 SQL常用语句总结

本文总结了常用的SQL语句,尤其适合在面试前复习你的SQL知识。你可以尝试文中的例子,温习下你很久以前在数据库系统课程上学到的知识。 配置样例数据库 为了演示每个命令的用法,我们将使用一个样例数据库。生成该数据库的脚本可以从Google网盘下载: DLL.sql: https://...

2018-12-12 16:06:00 52

转载 探究Hive和数据库的差别

一、简介 由于 Hive 采用了类似 SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在Onli...

2018-12-11 17:14:00 97

转载 Spark大数据处理环境搭建之hadoop2.7.6

前言 之前已经完成了虚拟机的安装,jdk安装,ssh免密码登录的前期准备。现在开始hadoop的安装。 1. 从Apache官网下载hadoop 由于后来要安装最新的spark,spark最新版本是基于hadoop2.7.x版本的: 所以下载最新版的hadoop2.7.6进行安...

2018-12-11 16:51:00 227

转载 hadoop的优点有哪些?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。那么你对Hadoop了解多少呢?下面就让小编来给你科普一下什么是hadoop。 hadoop的起源 项目起源 Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的...

2018-12-11 16:35:00 1047

转载 Linux里10个最危险的命令

Linux命令行佷有用、很高效,也很有趣,但有时候也很危险,尤其是在你不确定你自己在正在做什么时候。 这篇文章将会向你介绍十条命令,但你最好不要尝试着去使用。 当然,以下命令通常都是在root权限下才能将愚蠢发挥到无可救药;在普通用户身份下,破坏的只是自己的一亩三分地。 ...

2018-12-11 16:13:00 71

转载 用spark从oracle导入数据到hive

大概步骤: 连接oracle,创建一个dataframe用来接收从oracle里面读取的数据。 将dataframe的数据写入临时表。 用hiveContext.sql语句将数据写入hive里面。 这个程序其实对于学了spark的人来说很简单,直接上代码吧: pac...

2018-12-11 15:58:00 288

转载 大数据入门之hadoop相关概念知识点整理

Hadoop是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。今天整理了一些关于hadoop相关概念的知识点,觉得文章有用的小伙伴可以直接收藏~ Hadoop介绍: Hadoop实现了一个分...

2018-12-10 16:32:00 76

转载 50万年薪都招不来大数据开发工程师,究竟是什么样的?

2010年,大数据投资热潮与大数据岗位需求集中爆发,时至今日,大数据的热度仍高居不下。 从360指数来看,目前大数据在市场的热度远远高于前几年特别火的产品经理。 大数据如此火热,身边很多人对于大数据的相关趋势及词汇都能随口就来。但如果问他大数据和他之间的关系,却很难能说出一二三来。 ...

2018-12-10 15:47:00 62

转载 数据架构师必读:常见的七种Hadoop和Spark项目案例

如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大...

2018-12-09 15:50:00 60

转载 如何在万亿级别规模的数据量上使用Spark

本文主要是通过作者在搭建使用计算平台的过程中,写出对于Spark的理解,并且介绍了Spark在当前的DataMagic是如何使用的,当前平台已经用于架平离线分析,每天计算分析的数据量已经达到千亿~万亿级别。 一、前言 Spark作为大数据计算引擎,凭借其快速、稳定、...

2018-12-07 15:30:00 100

转载 干货:如何将Hadoop存储容量提升4倍?

本文主要介绍如何通过Federation使用多个独立的Namenodes Namespaces水平扩展命名空间。Namenodes彼此独立,互不通信,可以共享相同的Datanode存储。 在Hadoop 1.0中,HDFS的单N...

2018-12-06 15:37:00 49

转载 对Spark的那些【魔改】

前言 这两年做 streamingpro 时,不可避免的需要对Spark做大量的增强。就如同我之前吐槽的,Spark大量使用了new进行对象的创建,导致里面的实现基本没有办法进行替换。 比如SparkEnv里有个属性叫closureSerializer,是专门做任务的序列化反序列化的,...

2018-12-06 15:25:00 50

转载 大数据之初步了解HDFS、Hadoop和MapReduce

想学好大数据,首先要了解他的基础,所以,我们需要先了解HDFS和Hadoop以及MapReduce。 首先大家思考一个问题:如何合理的存储10T的电信通话记录? 下面给大家展现一个图片: 入的知识点: 元数据:描述数据的数据,主要描述数据的属性的信息,用来指示存储位置,历史数...

2018-11-27 21:06:00 111

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除