大数据
caridle
这个作者很懒,什么都没留下…
展开
-
Apache Storm 的安装、配置及入门基础(一)
Apache Storm 作为流数据处理,能实时处理海量数据,这是一个依赖 Zookeeper 的分布式系统,Storm 比较简单,能使用任何编程语言,作为私下玩玩也挺好的。Storm 能做实时分析、在线机器学习、流式计算和分布式 RPC/ETL 等等。Storm 现在的处理效率也很高,超过了每节点(Node)每秒处理百万级的 记录数(tuples)。具有扩展性、容错性,系统很容易创建和操作。原创 2017-07-31 10:04:40 · 1479 阅读 · 0 评论 -
大数据生态系统基础:Hadoop(一):介绍和安装
一、Hadoop 介绍 Apache Hadoop项目为可靠的、可扩展的分布式计算开发了开源软件。 Apache Hadoop软件库是一个框架,它允许使用简单的编程模型在计算机集群中对大型数据集进行分布式处理。它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。与依赖硬件交付高可用性不同。库本身的设计目的是检测和处理应用程序层的故障,原创 2017-08-18 15:59:06 · 860 阅读 · 0 评论 -
大数据生态系统基础:Hadoop(二):Hadoop 3.0.0集群安装和验证
一、目标 本文描述了如何安装和配置Hadoop集群,从几个节点到具有数千个节点的超大集群。要使用Hadoop,首先需要将它安装在一台机器上(请参阅单节点设置,Hadoop(一))。二、要求 安装 Java 和 Hadoop 的稳定版本。Mac OS/x 的编译安装三、安装 安装Hadoop集群通常需要在集群中的所有机器上打开软件,或者通原创 2017-08-18 17:04:37 · 2000 阅读 · 0 评论 -
大数据生态系统基础:Hadoop(三):Hadoop 3.0.0 HDFS 体系结构
一、介绍 Hadoop分布式文件系统(HDFS)是一种分布式文件系统,设计用于在商品硬件上运行。它与现有的分布式文件系统有许多相似之处。但是,与其他分布式文件系统的区别是显著的。HDFS是高度容错的,并且被设计用于低成本硬件上。HDFS提供对应用程序数据的高吞吐量访问,适用于具有大型数据集的应用程序。HDFS放宽了一些POSIX要求,以支持对文件系统数据的流访问。HDFS最初是作为A原创 2017-08-18 20:49:29 · 4908 阅读 · 0 评论 -
大数据生态系统基础:Hadoop(四):Hadoop 3.0.0 HDFS SHELL 命令
一、介绍 可以通过许多不同的方式从应用程序访问HDFS。在本地,HDFS为应用程序提供了一个文件系统Java API。这个Java API和REST API的C语言包装也是可用的。此外,还可以使用HTTP浏览器来浏览HDFS实例的文件。通过使用NFS网关,可以将HDFS作为客户机本地文件系统的一部分进行安装。 使用 hadoop fs 命令可以直接操作 hdfs原创 2017-08-19 09:20:14 · 738 阅读 · 0 评论 -
大数据生态系统基础:Hadoop(五):Hadoop 3.0.0 HDFS读写及编程基础
一、HDFS基本概念数据块(block):大文件会被分割成多个block进行存储,block大小默认为128MB。每一个block会在多个datanode上存储多份副本,默认是3份。最后一块即使没有128M,块文件会自动缩到所需的大小。NameNode :NameNode 负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。DataNod原创 2017-08-19 13:07:16 · 1079 阅读 · 0 评论 -
大数据生态系统基础:Apache Kafka基础(一):介绍和安装
一、 Apache kafka基础介绍 1、kafka 是什么? 首先一句话: Apache Kafka 是一个分布式的消息流平台。其模式就是我们在设计模式中常用的出版-订阅模式。 一个流平台有三个核心关键: 1)能够出版和订阅数据流记录。 这个和消息队列以及企业消息系统是一样的。 2)容错方式存储流记原创 2017-08-04 13:46:38 · 1699 阅读 · 0 评论 -
大数据生态系统基础:Hadoop(六):Mac 下Hadoop-Eclipse-plugin编译和集成环境配置
一、环境配置 安装0hadoop-eclipse-plugins不是必须的,但是安装了后开发使用比较方便,一是对hadoop中的文件可视化。二是创建MapReduce Project时引入依赖的jar。 下一步将进行 MapReduce 的开发,在开发之前,首先要安装 Eclipse 插件,这个插件就是 Hadoop-Eclipse-Plugin,安原创 2017-08-20 07:24:00 · 2497 阅读 · 0 评论 -
大数据生态系统基础:Hadoop(七):Hadoop MapReduce 工作原理和 YARN架构
一、介绍 Hadoop MapReduce是一种软件框架,可以轻松地编写应用程序,它可以以一种可靠的、容错的方式处理容量高达 T 字节的数据集的大型集群(数千个节点)。 MapReduce作业通常将输入数据集分割成独立的块,以完全并行的方式处理映射任务。框架对映射的输出进行排序,然后将这些输出输入到reduce任务中。通常,作业的输入和输出都存储在文件系统中原创 2017-08-20 21:44:28 · 777 阅读 · 0 评论 -
大数据生态系统基础: HIVE(一):HIVE 介绍及安装、配置
Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。 因为使用到 JDBC,所以这里使用 Mysql 数据库作为 DB。 一、安装条件 1、Java 1.7 2、Hadoop Hdfs ,创建/tmp 目录原创 2017-08-21 13:23:49 · 909 阅读 · 0 评论 -
大数据生态系统基础: HIVE(二):HIVE 架构和HiveQL基本操作
在“信息平台和数据科学家的崛起”中,Jeff Hammerbacher将信息平台描述为“他们的公司努力吸收、处理和产生信息的中心”,以及他们如何“促进从经验数据中学习的过程”。“Jeff团队在Face book上开发的信息平台的最大组成部分是Apache Hive,它是Hadoop上的数据仓库框架。 Hive从需要管理和学习的大量数据中成长起来,这是Facebook每天从蓬勃原创 2017-08-21 15:54:07 · 1487 阅读 · 1 评论 -
大数据生态系统基础: HBASE(一):HBASE 介绍及安装、配置
一、介绍 Apache HBase是Hadoop数据库,一个分布式的、可伸缩的大型数据存储。 当您需要随机的、实时的读/写访问您的大数据时,请使用Apache HBase。这个项目的目标是承载非常大的表——数十亿行X百万列的列——运行在在商用硬件的集群上。Apache HBase是一个开源的、分布式的、版本化的、非关系数据库,以谷歌的Bigtable为模型:一个结构原创 2017-08-21 19:03:16 · 1274 阅读 · 0 评论 -
大数据生态系统基础:Apache Spark(三):Java 版本编程实例(WordCount)
这些示例简要地概述了Spark API。Spark是基于分布式数据集的概念构建的,它包含任意的Java或Python对象。您可以从外部数据创建数据集,然后对其应用并行操作。Spark API的构建块是它的RDD API。在RDD API中,有两种类型的操作:转换,它定义了基于之前的一个新的数据集,以及操作,它启动了一个任务,在集群上执行。除了Spark的RDD API之外,还提供了高级API,例如原创 2017-08-09 20:40:00 · 596 阅读 · 0 评论 -
Apache Storm 编程入门基础(五):简单案例一
解决了程序框架的问题, 我们就在 Eclipse 中开始写代码了。没有安装 Maven 的要参考前面的说明。 一、构建 我用的版本是这个,最新的版本 File -->New --> Project .. --> Maven (Maven Project) --> Next --> Next , 在选择 Select an Arc原创 2017-08-02 13:11:32 · 2665 阅读 · 1 评论 -
Apache Storm 的安装、配置及入门基础(二)
本文翻译自:http://storm.apache.org/releases/current/Tutorial.html 借鉴了:http://www.aboutyun.com/thread-7394-1-1.html 过去十几年数据处理取得了飞速的发展,特别是 MapReduce,Hadoop及其相关技术以不可思议的程度来进行大规模存储和处理,但是这些处理技术不够实时原创 2017-07-31 20:31:25 · 2840 阅读 · 0 评论 -
Apache Storm 编程入门基础(四):Storm 运行和编程架构
编程想要入门,必须知道入门基础所说的运行原理和基本概念,这里就从Storm 例子运行和编程架构说起。一、Storm 运行 我刚开始学习 storm 也是带着疑问,Storm 程序怎么运行的?运行的结果在哪里显示?我看有人问。 1、Eclipse 的开发环境 我们写程序是在 Eclipse 下,写的 Maven工程文件,也就是要建立 Maven P原创 2017-08-02 11:14:59 · 1445 阅读 · 0 评论 -
Mac OSX下编译 Hadoop 2.6.4
当然,你首先得有一份 Hadoop-2.6.4-src 的源文件。使用 tar -zxvf 一、准备的软件环境 需要安装的软件很多,根据 BUILDING.txt 的说明有: * Unix System * JDK 1.6+ * Maven 3.0 or later * Findbugs 1.3.9 (if running findbugs) * ProtocolBuffer 2.5原创 2017-07-24 12:42:25 · 519 阅读 · 0 评论 -
大数据生态系统基础:Apache Spark(二):运行环境和实例演示
一、环境 Hadoop 2.6.4,启动主从服务器。 Spark 2.2 , 启动主从服务器 Spark 可以运行 Scala、Python、R、Java 语言写的脚本,所以需要安装上各自的开发语言和库文件。注意需要有 Zlib,可以使用 yum和 brew 安装 本人的主服务器是 Mac OS, 从服务器是 Cent原创 2017-08-09 14:53:22 · 705 阅读 · 0 评论 -
大数据生态系统基础:Apache Spark(一):介绍和编译、安装
Apache Spark 是一个快速和通用的大型数据处理引擎。一、Spark 的特点速度:在内存中运行程序要比Hadoop MapReduce快100倍,磁盘上的速度要快10倍。Apache Spark拥有一个先进的DAG执行引擎,它支持非循环数据流和内存计算。易用性:在Java、Scala、Python、r中快速编写应用程序。Spark提供了超过80个高级运算,这些运算可原创 2017-08-06 18:27:13 · 919 阅读 · 0 评论 -
大数据生态系统基础:Apache Kafka基础(四):最新kafka编程入门:Stream API
数据传输的事务定义通常有以下三种级别:最多一次: 消息不会被重复发送,最多被传输一次,但也有可能一次不传输。最少一次: 消息不会被漏发送,最少被传输一次,但也有可能被重复传输.精确的一次(Exactly once): 不会漏传输也不会重复传输,每个消息都传输被一次而且仅仅被传输一次,这是大家所期望的。当发布消息时,Kafka有一个“committed”的概念,一旦消息被提交了,只要消息被写原创 2017-08-06 12:52:43 · 2712 阅读 · 0 评论 -
大数据生态系统基础:Apache Kafka基础(三):最新kafka编程入门:Consumer
生产者将信息输入到集群中, 那么消费者就要能从集群中取出所需要的信息。 主要的类就是: KafkaConsumer一、原理 Kafka的一个分区的每一个记录保持一个数值偏移。这个偏移量作为该分区内记录的惟一标识符,并表示该分区中的使用者的位置。例如,处于位置5的消费者使用偏移量0到4的记录,然后将使用偏移量5来接收记录。 消费者api提供了覆盖各种消原创 2017-08-05 18:43:30 · 772 阅读 · 0 评论 -
大数据生态系统基础:Apache Kafka基础(二):最新kafka编程入门:Producer API
编程环境参见前面的 storm 的开发,还是使用 maven 项目。 由于使用的是 kafka 0.11.0.0版本,所以,必须在 pom.xml中加入下面一行代码: dependency> groupId>org.apache.kafkagroupId> artifactId>kafka_2.10artifactId> version原创 2017-08-05 13:12:22 · 640 阅读 · 0 评论 -
Apache Storm 编程入门基础(六):Storm 并行处理的理解和配置
经过一个简单的例子之后, 我们对 Storm 的运行有较为清晰的印象。一、Storm 并行处理关系 整个Storm 的工作流程如图所示: 这中间会涉及到一个问题, 就是任务的分配问题,涉及到几个概念: 1、服务器。 就是执行 SuperVisor 的机器一,机器二 2、Worker。 我们在配置的原创 2017-08-02 16:57:33 · 544 阅读 · 0 评论 -
Mac OS/X 下安装 Mahout
一、Mahout介绍 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,可以快速开发出可伸缩的性能机器学习应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。 Apach原创 2017-07-28 10:42:28 · 592 阅读 · 0 评论 -
Apache Storm 的安装、配置及入门基础(三):一个简单的 topology
在$HOME/storm 目录,有 examples 目录,该目录有很多的演示 examples, 特别是 storm-starter 目录下,这个版本兼容其它版本,1.1.0增加 了很多内容, 就连包名都改成了: org. apache.storm 了。 看下面的案例:examples/storm-starter/src/jvm/org/apache/storm/starter/原创 2017-08-01 08:55:10 · 1770 阅读 · 0 评论 -
Ambari 的安装(Hortonworks 安装法)
Ambari 是管理大数据软件系统安装的,用这个安装比较方便,但是有一点,就是能提供安装的版本比较低,不过作为练习还是不错的。Ambari 有两个版本,一个是 Apache 的版本,这个是源代码,需要自己编译,这个编译我自己做的好痛苦,中间总有 yarn install 错误,所以还是放弃。另外一个是 Hortonworks 的,两者区别不大,但是 H版本是 release 版本,比较好。 一原创 2017-08-22 14:47:31 · 1441 阅读 · 0 评论