大数据
拾荒的程序员老头
这个作者很懒,什么都没留下…
展开
-
大数据框架Spark Streaming简介
Spark Streaming 是 Spark 核心 API 的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming 支持从多种数据源获取数据,包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后,可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算...原创 2019-07-06 11:00:12 · 181 阅读 · 0 评论 -
大数据Kafka与Storm整合
在本章中,我们将学习如何将Kafka与Apache Storm集成。Storm是什么?Storm最初是由Nathan Marz和BackType团队创建的。 在很短的时间内,Apache Storm成为分布式实时处理系统的标准,用于处理大数据。 Storm速度非常快,每个节点每秒处理超过一百万个元组的基准时钟。 Apache Storm持续运行,从配置的源(Spouts)中消耗数据并将数据...原创 2019-07-05 21:30:33 · 714 阅读 · 0 评论 -
大数据Kafka费者群组示例
消费者群组是来自Kafka主题的多线程或多机器消费。消费者群组消费者可以通过使用samegroup.id加入一个组。一个组的最大并行度是该组中的消费者的数量 ← 分区的数量。 Kafka将一个主题的分区分配给组中的使用者,以便每个分区仅由组中的一位消费者使用。 Kafka保证只有群组中的单个消费者阅读消息。 消费者可以按照存储在日志中的顺序查看消息。重新平衡消费者添加更多流...原创 2019-07-05 21:30:31 · 164 阅读 · 0 评论 -
大数据Kafka简单的生产者例子
在这一节中将创建一个使用Java客户端发布和使用消息的应用程序。 Kafka生产者客户端由以下API组成。KafkaProducer API下面来了解Kafka生产者API。 KafkaProducer API的核心部分是KafkaProducer类。KafkaProducer类提供了一个选项,用于将Kafka代理的构造函数与以下方法连接起来。KafkaProducer类提供send...原创 2019-07-05 21:30:31 · 289 阅读 · 0 评论 -
Kafka环境安装配置
以下是在您的机器上安装Java的步骤。第1步 – Java安装查看是否在机器上安装了java环境,只需使用下面的命令来验证它。$ java -version 如果计算机上已成功安装Java,则可以看到已安装的Java版本。例如 –yiibai@ubuntu:~$ java -version java version "1.8.0_65" Java(TM) SE Run...原创 2019-07-05 21:20:01 · 232 阅读 · 0 评论 -
Kafka工作流
截至目前,我们已经了解了Kafka的核心概念。 现在让我们来看看Kafka的工作流程。Kafka只是分成一个或多个分区的主题集合。 Kafka分区是消息的线性排序序列,每个消息由其索引标识(称为偏移量)。 Kafka集群中的所有数据都是不相关的分区联合。 传入消息写在分区的末尾,消费者依次读取消息。 通过将消息复制到不同的经纪人来提供持久性。Kafka以快速,可靠,持久的容错和零停机方式提...原创 2019-07-05 21:19:59 · 238 阅读 · 0 评论 -
Kafka群集体系结构
有关Kafka群集体系结构,请看下面的结构图。 它显示了Kafka的集群图。下表描述了上图中显示的每个组件。Broker– Kafka集群通常由多个代理组成,以保持负载平衡。 Kafka经纪人是无状态的,所以他们使用ZooKeeper维护他们的集群状态。 一个Kafka代理实例可以处理每秒数十万次的读写操作,每个Broker都可以处理TB消息,而不会影响性能。 Kafka经纪人的领导人选...原创 2019-07-05 21:19:57 · 246 阅读 · 0 评论 -
Kafka基本原理
在深入学习Kafka之前,需要先了解topics,brokers,producers和consumers等几个主要术语。 下面说明了主要术语的详细描述和组件。在上图中,主题(topic)被配置为三个分区。 分区1(Partition 1)具有两个偏移因子0和1。分区2(Partition 2)具有四个偏移因子0,1,2和3,分区3(Partition 3)具有一个偏移因子0。replica...原创 2019-07-05 21:19:55 · 669 阅读 · 0 评论 -
Kafka简介
在大数据中,使用了大量的数据。 关于大数据,主要有两个主要挑战。第一个挑战是如何收集大量数据,第二个挑战是分析收集的数据。 为了克服这些挑战,需要使用消息传递系统。Kafka专为分布式高吞吐量系统而设计。 Kafka倾向于非常好地取代传统的信息中间服务者。 与其他消息传递系统相比,Kafka具有更好的吞吐量,内置分区,复制和固有容错功能,因此非常适合大型消息处理应用程序。什么是消息系统?...原创 2019-07-05 21:19:54 · 178 阅读 · 0 评论 -
Kafka教程
Apache Kafka起源于LinkedIn,后来于2011年成为Apache开源项目,然后于2012年成为Apache项目的第一个类别。Kafka是使用Scala和Java编写的。 Apache Kafka是基于 – 发布订阅的容错消息系统。 它具有快速,可扩展和设计分布的特点。本教程将探讨Kafka的原理,安装和操作,然后它将引导您完成Kafka集群的部署。 最后,我们将教程结束实时应用...原创 2019-07-05 21:19:52 · 441 阅读 · 0 评论 -
HBase启用表
启用表的语法: enable ‘emp’给出下面是一个例子,使一个表启用。 hbase(main):005:0> enable 'emp' 0 row(s) in 0.4580 seconds验证启用表之后,扫描。如果能看到的模式,那么证明表已成功启用。 hbase(main):006:0> scan 'emp' ROW ...原创 2019-06-29 20:00:11 · 374 阅读 · 0 评论 -
HBase禁用表
要删除表或改变其设置,首先需要使用 disable 命令关闭表。使用 enable 命令,可以重新启用它。下面给出的语法是用来禁用一个表: disable ‘emp’下面给出的是一个例子,说明如何禁用表。 hbase(main):025:0> disable 'emp' 0 row(s) in 1.2760 seconds验证禁用表之后,仍然可以通过 lis...原创 2019-06-29 20:00:09 · 1340 阅读 · 0 评论 -
HBase列出表
list是用来列出HBase中所有表的命令。下面给出了list命令的语法。 hbase(main):001:0 > list当输入这个命令,并在HBase提示符下执行,它会显示HBase中的所有表的列表,如下图所示。 hbase(main):001:0> list TABLE emp 在这里,可以看到一个名为表emp。使用Java API列出表...原创 2019-06-29 19:59:00 · 880 阅读 · 0 评论 -
HBase创建表
可以使用命令创建一个表,在这里必须指定表名和列族名。在HBase shell中创建表的语法如下所示。 create ‘<table name>’,’<column family>’示例下面给出的是一个表名为emp的样本模式。它有两个列族:“personal data”和“professional data”。Row key personal dat...原创 2019-06-29 19:57:59 · 4365 阅读 · 0 评论 -
HBase Admin API
HBase是用Java编写的,因此它提供Java API和HBase通信。 Java API是与HBase通信的最快方法。下面给出的是引用Java API管理,涵盖用于管理表的任务。HBaseAdmin类HBaseAdmin是一个类表示管理。这个类属于org.apache.hadoop.hbase.client包。使用这个类,可以执行管理员任务。使用Connection.getAdmin(...原创 2019-06-29 19:49:57 · 206 阅读 · 0 评论 -
HBase常用命令
HBase常用命令status, version, table_help和whoami。本章将介绍了这些命令。status命令返回包括在系统上运行的服务器的细节和系统的状态。它的语法如下: hbase(main):009:0> status如果执行这个命令,它会返回下面的输出 hbase(main):009:0> status 3 servers, 0 d...原创 2019-06-29 19:49:55 · 130 阅读 · 0 评论 -
HBase Shell
本章介绍了如何使用自带HBase交互shell启动HBase。HBase ShellHBase包含可以与HBase进行通信的Shell。 HBase使用Hadoop文件系统来存储数据。它拥有一个主服务器和区域服务器。数据存储将在区域(表)的形式。这些区域被分割并存储在区域服务器。主服务器管理这些区域服务器,所有这些任务发生在HDFS。下面给出的是一些由HBase Shell支持的命令。...原创 2019-06-29 19:49:50 · 103 阅读 · 0 评论 -
HBase安装
安装前设置安装Hadoop在Linux环境下之前,需要建立和使用Linux SSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先,建议从Unix创建一个单独的Hadoop用户,文件系统隔离Hadoop文件系统。按照下面给出创建用户的步骤。开启root使用命令“su”. 使用root帐户命令创建用户 “useradd username”. 现在,可以...原创 2019-06-29 19:49:32 · 1231 阅读 · 0 评论 -
大数据Kafka与Spark整合
在本章中,将讨论如何将Apache Kafka与Spark Streaming API集成。Spark是什么?Spark Streaming API支持实时数据流的可扩展,高吞吐量,容错流处理。 数据可以从Kafka,Flume,Twitter等许多来源获取,并且可以使用复杂算法进行处理,例如:映射,缩小,连接和窗口等高级功能。 最后,处理后的数据可以推送到文件系统,数据库和现场仪表板上。...原创 2019-07-05 21:30:34 · 538 阅读 · 0 评论 -
HBase表描述和修改
描述该命令返回表的说明。它的语法如下: hbase> describe 'table name'下面给出的是对emp表的describe命令的输出。 hbase(main):006:0> describe 'emp' DESCRIPTION ENABLED 'emp', {NAME => 'READONLY', ...原创 2019-07-01 13:00:08 · 671 阅读 · 0 评论 -
HBase Exists
可以使用exists命令验证表的存在。下面的示例演示了如何使用这个命令。 hbase(main):024:0> exists 'emp' Table emp does exist 0 row(s) in 0.0750 seconds ================================================================== ...原创 2019-07-01 13:09:48 · 311 阅读 · 0 评论 -
大数据框架Spark开发实例(编程实践)
本节将介绍如何实际动手进行 RDD 的转换与操作,以及如何编写、编译、打包和运行 Spark 应用程序。启动 SparkShellSpark 的交互式脚本是一种学习 API 的简单途径,也是分析数据集交互的有力工具。Spark 包含多种运行模式,可使用单机模式,也可以使用分布式模式。为简单起见,本节采用单机模式运行 Spark。无论采用哪种模式,只要启动完成后,就初始化了一个 Spa...原创 2019-07-06 11:00:10 · 848 阅读 · 0 评论 -
大数据框架Spark生态圈简介
Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。AMP 实验室运用大数据、云计算、通信等各种资源及各种灵活的技术方案,对海量不透明的数据进行甄别并转化为有用的信息,以供人们更好地理解世界。该生态圈已经涉及机器学习、数据挖掘、数据库、信息检索、自然语言处...原创 2019-07-06 11:00:08 · 291 阅读 · 0 评论 -
大数据框架Spark总体架构和运行流程
本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。Spark 总体架构Spark 运行架构如图 1 所示,包括集群资源管理器(Cluster Manager)、多个运行作业任务的工作结点(Worker Node)、每个应用的任务控制结点(Driver)和每个工作结点上负责具体任务的执行进程(Executor)。...原创 2019-07-06 11:00:06 · 286 阅读 · 0 评论 -
大数据框架Spark RDD是什么?
Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。RDD 的基本概念RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分...原创 2019-07-06 11:00:05 · 582 阅读 · 0 评论 -
大数据框架Spark是什么?Spark和Hadoop的区别
Spark 是加州大学伯克利分校 AMP(Algorithms,Machines,People)实验室开发的通用内存并行计算框架。Spark 在 2013 年 6 月进入 Apache 成为孵化项目,8 个月后成为 Apache 顶级项目。Spark 以其先进的设计理念,迅速成为社区的热门项目,围绕着 Spark 推出了 SparkSQL、SparkStreaming、MLlib 和 Gr...原创 2019-07-06 10:54:58 · 331 阅读 · 0 评论 -
大数据框架Spring Kafka和Spring Boot配置
在下面的教程中,我们将演示如何使用Spring Boot配置Spring Kafka。 Spring Boot使用合理的默认配置Spring Kafka。并使用application.yml属性文件覆盖这些默认值。项目设置Spring Kafka:2.1.4.RELEASE Spring Boot:2.0.0.RELEASE Apache Kafka:kafka_2.11-...原创 2019-07-06 10:54:56 · 235 阅读 · 0 评论 -
大数据框架Spring消费者和生产者
本教程演示了如何发送和接收来自Spring Kafka的消息。 首先创建一个能够发送消息给Kafka主题的Spring Kafka Producer。 接下来,我们创建一个Spring Kafka Consumer,它可以收听发送给Kafka主题的消息。使用适当的键/值序列化器和解串器来配置它们。 最后用一个简单的Spring Boot应用程序演示应用程序。下载并安装Apache Kafka...原创 2019-07-06 10:54:54 · 328 阅读 · 0 评论 -
大数据框架Kafka应用
Kafka支持许多最好的工业应用。 在本章中,我们将简要介绍一些Kafka最显着的应用。推特Twitter是一种在线社交网络服务,提供发送和接收用户推文的平台。 注册用户可以阅读和发布推文,但未注册的用户只能阅读推文。 Twitter使用Storm-Kafka作为其流处理基础设施的一部分。LinkedIn在LinkedIn上使用Apache Kafka来获取活动流数据和运营指标。 ...原创 2019-07-06 10:50:31 · 158 阅读 · 0 评论 -
大数据框架Kafka工具
Kafka工具包装在org.apache.kafka.tools.*下。 工具分为系统工具和复制工具。系统工具系统工具可以使用run class脚本从命令行运行。 语法如下 –bin/kafka-run-class.sh package.class -- options 下面提到了一些系统工具 –Kafka迁移工具– 此工具用于将代理从一个版本迁移到另一个版本。 Mir...原创 2019-07-06 10:50:29 · 251 阅读 · 0 评论 -
HBase扫描
scan命令用于查看HTable数据。使用scan命令可以得到表中的数据。它的语法如下: scan ‘<table name>’下面的示例演示了如何使用scan命令从表中读取数据。在这里读取的是emp表。 hbase(main):010:0> scan 'emp' ROW COLUMN+CELL ...原创 2019-07-01 14:00:00 · 235 阅读 · 0 评论 -
HBase删除数据
从表删除特定单元格使用 delete 命令,可以在一个表中删除特定单元格。 delete 命令的语法如下: delete ‘<table name>’, ‘<row>’, ‘<column name >’, ‘<time stamp>’下面是一个删除特定单元格和例子。在这里,我们删除salary hbase(main):006...原创 2019-07-01 13:59:52 · 2428 阅读 · 0 评论 -
HBase读取数据
get命令和HTable类的get()方法用于从HBase表中读取数据。使用 get 命令,可以同时获取一行数据。它的语法如下: get ’<table name>’,’row1’下面的例子说明如何使用get命令。扫描emp表的第一行。 hbase(main):012:0> get 'emp', '1' COLUMN ...原创 2019-07-01 13:59:50 · 374 阅读 · 0 评论 -
HBase更新数据
可以使用put命令更新现有的单元格值。按照下面的语法,并注明新值,如下图所示。 put ‘table name’,’row ’,'Column family:column name',’new value’新给定值替换现有的值,并更新该行。示例假设HBase中有一个表emp拥有下列数据 hbase(main):003:0> scan 'emp' ROW ...原创 2019-07-01 13:59:48 · 1009 阅读 · 0 评论 -
HBase创建数据
本章将介绍如何在HBase表中创建的数据。要在HBase表中创建的数据,可以下面的命令和方法:put命令, add() –Put类的方法 put()–HTable 类的方法.作为一个例子,我们将在HBase中创建下表。使用put命令,可以插入行到一个表。它的语法如下: put ’<table name>’,’row1’,’<colfamily:c...原创 2019-07-01 13:59:46 · 267 阅读 · 0 评论 -
HBase客户端API
本章介绍用于对HBase表上执行CRUD操作的HBase Java客户端API。 HBase是用Java编写的,并具有Java原生API。因此,它提供了编程访问数据操纵语言(DML)。HBaseConfiguration类添加 HBase 的配置到配置文件。这个类属于org.apache.hadoop.hbase包。方法及说明S.No. 方法及说明 1 static...原创 2019-07-01 13:59:45 · 314 阅读 · 0 评论 -
HBase关闭
exit可以通过键入exit命令退出shell。 hbase(main):021:0> exit停止HBase要停止HBase,浏览进入到HBase主文件夹,然后键入以下命令。 ./bin/stop-hbase.sh使用Java API停止HBase可以使用HBaseAdmin类的shutdown()方法关闭HBase。按照下面给出关闭HBase的步骤:...原创 2019-07-01 13:10:01 · 586 阅读 · 0 评论 -
HBase删除表
用drop命令可以删除表。在删除一个表之前必须先将其禁用。 hbase(main):018:0> disable 'emp' 0 row(s) in 1.4580 seconds hbase(main):019:0> drop 'emp' 0 row(s) in 0.3060 seconds使用exists 命令验证表是否被删除。 hbase(main...原创 2019-07-01 13:09:59 · 389 阅读 · 0 评论 -
HBase架构
在HBase中,表被分割成区域,并由区域服务器提供服务。区域被列族垂直分为“Stores”。Stores被保存在HDFS文件。下面显示的是HBase的结构。注意:术语“store”是用于区域来解释存储结构。HBase有三个主要组成部分:客户端库,主服务器和区域服务器。区域服务器可以按要求添加或删除。主服务器主服务器是–分配区域给区域服务器并在Apache ZooKeepe...原创 2019-06-29 19:49:25 · 100 阅读 · 0 评论 -
HBase教程
自1970年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后,好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop使用分布式文件系统,用于存储大数据,并使用MapReduce来处理。Hadoop擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理。Hadoop的限制Hadoop只能执行批量处理,并且只以顺序方式访问数据。这意...原创 2019-06-29 19:49:18 · 233 阅读 · 0 评论