Hadoop
贾诩是也
走过很多弯路,一直坚强、执着的眺望着远方、、、一个听着小米布斯故事成长起来的老码农。不忘初心,方得始终、、、给自己鼓劲加油,为这个时代华丽的时代喝彩!
展开
-
Spark-core解读
从三个部分来解读Spark-core,首先是Spark的架构,阐述了Spark基于弹性分布式数据集RDD这个计算模型的工作机制(计算流程):Application->Job->Stage->Task 的分解、分发和并行计算;接下去从计算模型和工作机制两个方面,分别解读RDD的设计思想及其算子,以及划分RDD有向无环图为Stage和Task、并行计算的工作机制。进一步的原理分析和源码研读将在该系列的转载 2017-07-11 14:34:26 · 2064 阅读 · 1 评论 -
两款高性能并行计算引擎Storm和Spark简单比较
Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。所以这是把过程传递给数据。这和Hadoop map/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法(前一步计算输出是下一步计算的输入)性能更高。Shark只是一个基于Spark的查询引擎(支持ad-hoc临时性的分析转载 2017-07-11 14:53:55 · 1356 阅读 · 0 评论 -
Hadoop之ZooKeeper环境搭建(笔记14)
从字面上来看,ZooKeeper表示动物园管理员,这是一个十分奇妙的名字,我们又想起了Hadoop生态系统中,许多项目的Logo都采用了动物,比如hadoop采用了大象的形象,所以我们可以猜测ZooKeeper就是对这些动物进行一些管理工作的。一、ZooKeeper基础介绍1.1 动物园也要保障安全 zookeeper是hadoop下面的一个子项目,用来协调跟hadoop相关转载 2017-07-19 09:54:20 · 297 阅读 · 0 评论 -
Hadoop之MapReduce中的常见算法(笔记12)
一、MapReduce中有哪些常见算法 (1)经典之王:单词计数 这个是MapReduce的经典案例,经典的不能再经典了! (2)数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。 (3)排序:按某个Key进转载 2017-07-20 09:50:07 · 399 阅读 · 0 评论 -
Hadoop之MapReduce中的排序和分组(笔记11)
一、写在之前的1.1 回顾Map阶段四大步骤 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行排序和分组。1.2 实验场景数据文件 在一些特定的数据文件中,不一定都是类似于WordCount单次统计这种规范的数据,比如下面这类数转载 2017-07-20 09:50:24 · 430 阅读 · 0 评论 -
Hadoop之Shuffle过程那点事儿(笔记10)
一、回顾Reduce阶段三大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示: 其中,Step2.1就是一个Shuffle操作,它针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的reduce任务节点上,这个过程就称作为Shuffle。PS:Had转载 2017-07-20 09:50:39 · 296 阅读 · 0 评论 -
Hadoop之Partitioner与自定义Partitioner(笔记9)
一、初步探索Partitioner1.1 再次回顾Map阶段五大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示: 其中,step1.3就是一个分区操作。通过前面的学习我们知道Mapper最终处理的键值对,是需要送到Reducer去合并的,合并的时候,有相同key的键/值对会送到同一转载 2017-07-20 09:50:51 · 339 阅读 · 0 评论 -
Hadoop之Combiner与自定义Combiner(笔记8)
一、Combiner的出现背景1.1 回顾Map阶段五大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示: 其中,step1.5是一个可选步骤,它就是我们今天需要了解的 Map规约 阶段。现在,我们再来看看前一篇博文《计数器与自定义计数器》中的第一张关于计数器的图: 我转载 2017-07-19 09:48:21 · 437 阅读 · 0 评论 -
Hadoop计数器与自定义计数器(笔记7)
一、Hadoop中的计数器计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。 例如,我们有一个文件,其中包含如下内容:hello youhello me 它被WordCount程序执行后显示如下日志: 在上图所示中,转载 2017-07-20 09:51:29 · 374 阅读 · 0 评论 -
Yarn的原理与资源调度
本节,主要介绍yarn的基本原理以及资源调度。在hadoop1.0不能满足多系统集成的背景下孕育了yarn的产生。由于多分布式系统可以很好的集成,因此yarn的出现使得整个集群的运维成本大大降低。同时,yarn可以很好的利用集群资源,避免资源的浪费。除此之外,yarn的出现实现了集群的数据共享问题。不同的分布式计算框架可以实现数据的共享,比如hadoop的mapreduce输出可以作为storm的转载 2017-07-20 09:52:13 · 1618 阅读 · 0 评论 -
大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
简介大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理翻译 2017-07-30 09:58:32 · 309 阅读 · 0 评论 -
除Hadoop外你还需要知道的9个大数据技术
Hadoop是大数据领域最流行的技术,但并非唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外,另外9个大数据技术也是必须要了解的。Apache Flink Apache Samza Google Cloud Data Flow StreamSets Tensor Flow Apache NiFi Druid LinkedIn WhereHows Micros转载 2017-07-31 00:05:04 · 587 阅读 · 0 评论 -
大数据技术的回顾与展望 ——写在Hadoop十周年纪念
今天是Hadoop十岁生日。于2006年1月28日诞生的它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。InfoQ策划了一系列文章,为大家梳理Hadoop这十年的变化,以及技术生态圈状况,本文是第一篇。1. 引子什么是大数据?麦肯锡公司的报告《大数据:创新、竞争和生产力的下一个前沿领域》中给出的大数据定义是:大数据指的转载 2017-07-31 00:07:01 · 1635 阅读 · 0 评论 -
浅谈雅虎如何使用Hadoop、深度学习和大数据平台
本文要点了解雅虎如何利用Hadoop和大数据平台技术; 在类似Flickr和Esports这样的产品中,雅虎如何使用深度学习技术进行场景检测和对象识别;机器学习在图像识别、定向广告、搜索排名、滥用检测和个性化中的应用;Hadoop集群上用于分类和排名的机器学习算法; 团队在实现大数据和机器学习方案方面遇到的挑战。雅虎在大数据&机器学习领域的不同场景中使用了Hadoo转载 2017-07-31 00:08:12 · 2164 阅读 · 0 评论 -
腾讯大数据宣布开源第三代高性能计算平台Angel:支持十亿维度
12月18日,深圳 - 腾讯大数据宣布推出面向机器学习的第三代高性能计算平台——Angel,并预计于2017年一季度开放其源代码,鼓励业界工程师、学者和技术人员大规模学习使用,激发机器学习领域的更多创新应用与良好生态发展。InfoQ采访了腾讯大数据负责人蒋杰,本文根据采访稿件以及姚星和蒋杰在腾讯大数据技术峰会暨 KDD China 技术峰会上的演讲内容整理而来。研发背景腾讯公司是一家消转载 2017-07-31 00:08:57 · 847 阅读 · 0 评论 -
Hadoop之HBase框架学习(笔记15)
Hbase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。hbase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型,它存储的是松散型数据。一、HBase:BigTable的开源实现1.1 HBase出现的背景 (1)随着数据规模越来越大,大量业务场景开始考虑数据存储水平扩展,使得存储服务可以转载 2017-07-21 22:03:37 · 337 阅读 · 0 评论 -
Hadoop之HBase框架学习基础实践篇(笔记16)
一、HBase的安装配置1.1 伪分布模式安装 伪分布模式安装即在一台计算机上部署Hbase的各个角色,HMaster、HRegionServer以及ZooKeeper都在一台计算机上来模拟。 首先,准备好hbase的安装包,我这里使用的是HBase-0.94.7的版本,已经上传至百度网盘之中(URL:http://pan.baidu.com/s/1pJ3HTY7)转载 2017-07-21 22:03:51 · 404 阅读 · 0 评论 -
hadoop1和hadoop2的比较
前言hadoop1和hadoop2的结构比较: hadoop1中有HDFS和MapReduce.HDFS负责存储,MapReduce负责计算,但是有几个问题需要解决: 1.单点的问题.HDFS的namenode和MapReduce的jobTracker都是单点.单点的缺点就是,这个点一旦奔溃了,整个集群就不能工作了,虽然也有解决方案,但是都不够彻底,最好的解决方案原创 2017-07-21 22:04:05 · 1732 阅读 · 0 评论 -
Hadoop之Pig框架学习(笔记17)
一、关于Pig:别以为猪不能干活1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。Compare:相比Java的MapReduce A转载 2017-07-21 22:04:25 · 482 阅读 · 0 评论 -
Hadoop之Hive框架学习(笔记18)
一、Hive:一个牛逼的数据仓库1.1 神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 hadoop 中的大规模数据的机制。hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许转载 2017-07-21 22:04:45 · 259 阅读 · 0 评论 -
Hadoop之Sqoop框架学习(笔记19)
一、Sqoop基础:连接关系型数据库与Hadoop的桥梁1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变成一个标准的流程,云管理员们能够利用Sqoop的并行批量数据加载能力来简化这一流转载 2017-07-21 22:05:38 · 328 阅读 · 0 评论 -
Hadoop之Flume框架学习(笔记20)
START:Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地。这里的日志是一个统称,泛指文件、操作记录等许多数据。一、Flume基础理论1.1 常见的分布式日志收集系统 Scribe是facebook开源的日志收集系统,在facebook内部已经得到大量的应用。 Chukwa 是一转载 2017-07-21 22:05:50 · 389 阅读 · 0 评论 -
Hadoop之Mapreducer里的Partitioner(笔记25)
Partitioner就是对map输出的key进行分组,不同的组可以指定不同的reduce task处理;Partition功能由partitioner的实现子类来实现每写一段代码都会加深理解,程序里记录了自己的理解FlowBean类源码:[java] view plain copy package cn.zxl转载 2017-07-21 22:06:14 · 276 阅读 · 0 评论 -
Hadoop之Hadoop2的改进内容简介(笔记24)
Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:(1)HDFS的NameNode可以以集群的方式布署,增强了NameNodes的水平扩展能力和高可用性,分别是:HDFS Federation与HA;(2)MapReduce将JobTracker中的资源管理及任务生转载 2017-07-21 22:06:32 · 482 阅读 · 0 评论 -
HData——ETL 数据导入/导出工具
HData是一个异构的ETL数据导入/导出工具,致力于使用一个工具解决不同数据源(JDBC、Hive、HDFS、HBase、MongoDB、FTP、Http、CSV、Excel、Kafka等)之间数据交换的问题。HData在设计上同时参考了开源的Sqoop、DataX,却与之有不同的实现。HData采用“框架+插件”的结构,具有较好的扩展性,框架相当于数据缓冲区,插件则为访问不同的数据源提供实现。原创 2017-07-21 22:06:59 · 2410 阅读 · 0 评论 -
Hadoop On Yarn Mapreduce运行原理与常用数据压缩格式
我们通过提交jar包,进行MapReduce处理,那么整个运行过程分为五个环节:1、向client端提交MapReduce job.2、随后yarn的ResourceManager进行资源的分配.3、由NodeManager进行加载与监控containers.4、通过applicationMaster与ResourceManager进行资源的申请及状态的交互,由No转载 2017-07-22 07:33:30 · 394 阅读 · 0 评论 -
HDFS与其他并行文件系统的比较
HDFS作为一种新兴的并行文件系统,和现有的分布式文件系统相似,他们都是运行在普通硬件之上的分布式文件系统,然而HDFS与其他分布式文件系统也存在着一些差别。如HDFS具有高容错性,可以部署在低成本的硬件之上,同时放松了对POSIX的需求,使其可以以流的形式访问文件数据,非常适合大数据集的应用程序。分析研究HDFS与其他并行文件系统的相同点和不同点,能够深入了解HDFS系统的应用场景和设计理念。原创 2017-07-22 07:34:01 · 3600 阅读 · 0 评论 -
数据分析系统Hive
Hive概述 hive是由facebook开源,最初用于解决海量结构化的日志数据统计问题。其是构建在Hadoop之上的数据仓库。数据计算使用MR,数据存储使用HDFS。Hive 定义了一种类 SQL 查询语言——HQL。类似SQL,但不完全相同。通常用于进行离线数据处理(采用MapReduce)。可认为Hive是一个HQL-MR的语言翻译器。转载 2017-07-22 07:34:54 · 562 阅读 · 0 评论 -
Hadoop之网站日志分析项目案例(一)介绍(笔记21)
网站日志分析项目案例(一)项目介绍:当前页面网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/4464349.html一、项目背景与数据情况1.1 项目来源 本次要实践的数转载 2017-07-22 07:35:18 · 1334 阅读 · 0 评论 -
Hadoop之网站日志分析项目案例(三)统计分析(笔记23)
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:当前页面一、借助Hive进行统计1.1 准备工作:建立分区表转载 2017-07-22 07:35:56 · 869 阅读 · 0 评论 -
Hadoop之网站日志分析项目案例(二)数据清洗(笔记22)
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:当前页面网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/4464349.html一、数据情况分析1.1 数据情况回顾 该论坛数据有转载 2017-07-22 07:36:48 · 658 阅读 · 0 评论 -
Zookeeper基本原理与应用场景
Zookeeper是一个针对大型分布式系统的可靠协调系统。提供的功能包括:配置维护、名字服务、分布式同步、组服务等。目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper已经成为Hadoop生态系统中的基础组件。Zookeeper有如下特点: 最终一致性:为客户端展示同一视图,这是zookeeper最重要的功能。转载 2017-07-22 07:37:33 · 331 阅读 · 0 评论 -
Hadoop数据收集与入库系统Flume与Sqoop
Hadoop提供了一个中央化的存储系统,其有利于进行集中式的数据分析与数据共享。 hadoop对存储格式没有要求。可以存储用户访问日志、产品信息以及网页数据等数据。 常见的两种数据来源。一种是分散的数据源:机器产生的数据、用户访问日志以及用户购买日志。另一种是传统系统中的数据:传统关系型数据库(MySQL、Oracle)、磁盘阵列以及磁带。 F转载 2017-07-22 07:38:49 · 814 阅读 · 0 评论 -
Hadoop学习笔记系列文章导航
一、为何要学习Hadoop? 这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据,如果求助于昂贵的专用主机甚至超级计算机,成本无疑很高,有时即使是保存数据,也需要面对高成本的问题,因为具有海量数据容转载 2017-07-22 07:39:21 · 164 阅读 · 0 评论 -
大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本文章:1.一个好的项目架构应该具备什么特点?2.本项目架构是如何保证数据准确性的?3转载 2016-10-28 11:12:44 · 379 阅读 · 0 评论 -
HLFS: 基于HDFS和LFS技术的EBS开源实现
HLFS(HDFS Log Structured FileSystem)是一个开源EBS系统,隶属于《谁来拯救云计算》一文作者康华所发起的cloudxy项目。 HDFS最大的特色是结合了LFS和HDFS, HDFS提供了可靠、随时可扩展的文件服务,而LFS弥补了HDFS不能随机更新的缺憾。 HDFS一个较为成熟的项目,为HLFS提供可靠的、可扩展的存储服务, 大大简化了HLFS的设计。在HL转载 2017-07-08 13:50:48 · 984 阅读 · 0 评论 -
SparkSQL简介
1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,转载 2017-07-11 14:40:39 · 203 阅读 · 0 评论 -
Oozie介绍
1. Hadoop常见调度框架:(1)Linux Crontab:Linux自带的任务调度计划,在任务比较少的情况下,可以使用这种方式,直接执行脚本,例如添加一个执行计划: 0 12 * hive -f xxx.sql(2)Azkaban:(3)Oozie:Cloudera公司开源(4)Zeus:阿里开源。Oozie是管理Hadoop作业的工作流调度系统。Oozie翻译 2017-07-11 12:04:24 · 232 阅读 · 0 评论 -
Hadoop环境配置参考一
1 配置时间同步: 指令:crontab -e 编辑:0 1 * * * root /usr/sbin/ntpdate cn.pool.ntp.org 【a进入编辑状态,ctrl+c退出编辑状态 ,:wq保存】 2 配置主机名:vi /etc/sysconfig/network 3 配置网络: 指令:setup --> network conf原创 2017-07-19 09:27:52 · 210 阅读 · 0 评论 -
Hadoop环境配置二(基于Eclipse)
我的开发环境:操作系统centos5.5 一个namenode 两个datanodeHadoop版本:hadoop-0.20.203.0Eclipse版本:eclipse-java-helios-SR2-linux-gtk.tar.gz(使用3.7的版本总是崩溃,让人郁闷)第一步:先启动hadoop守护进程具体参看:http://www.cnblogs.co原创 2017-07-19 09:30:31 · 197 阅读 · 0 评论