拾荒的程序员老头-CSDN博客

原创 HBase扫描

scan命令用于查看HTable数据。使用scan命令可以得到表中的数据。它的语法如下： scan ‘<table name>’下面的示例演示了如何使用scan命令从表中读取数据。在这里读取的是emp表。 hbase(main):010:0> scan 'emp' ROW COLUMN+CELL ...

2019-07-01 14:00:00 276

原创 HBase删除数据

从表删除特定单元格使用 delete 命令，可以在一个表中删除特定单元格。 delete 命令的语法如下： delete ‘<table name>’, ‘<row>’, ‘<column name >’, ‘<time stamp>’下面是一个删除特定单元格和例子。在这里，我们删除salary hbase(main):006...

2019-07-01 13:59:52 2530

原创 HBase读取数据

get命令和HTable类的get()方法用于从HBase表中读取数据。使用 get 命令，可以同时获取一行数据。它的语法如下： get ’<table name>’,’row1’下面的例子说明如何使用get命令。扫描emp表的第一行。 hbase(main):012:0> get 'emp', '1' COLUMN ...

2019-07-01 13:59:50 443

原创 HBase更新数据

可以使用put命令更新现有的单元格值。按照下面的语法，并注明新值，如下图所示。 put ‘table name’,’row ’,'Column family:column name',’new value’新给定值替换现有的值，并更新该行。示例假设HBase中有一个表emp拥有下列数据 hbase(main):003:0> scan 'emp' ROW ...

2019-07-01 13:59:48 1084

原创 HBase创建数据

本章将介绍如何在HBase表中创建的数据。要在HBase表中创建的数据，可以下面的命令和方法：put命令, add() –Put类的方法 put()–HTable 类的方法.作为一个例子，我们将在HBase中创建下表。使用put命令，可以插入行到一个表。它的语法如下： put ’<table name>’,’row1’,’<colfamily:c...

2019-07-01 13:59:46 312

原创 HBase客户端API

本章介绍用于对HBase表上执行CRUD操作的HBase Java客户端API。 HBase是用Java编写的，并具有Java原生API。因此，它提供了编程访问数据操纵语言(DML)。HBaseConfiguration类添加 HBase 的配置到配置文件。这个类属于org.apache.hadoop.hbase包。方法及说明S.No. 方法及说明 1 static...

2019-07-01 13:59:45 349

原创 HBase关闭

exit可以通过键入exit命令退出shell。 hbase(main):021:0> exit停止HBase要停止HBase，浏览进入到HBase主文件夹，然后键入以下命令。 ./bin/stop-hbase.sh使用Java API停止HBase可以使用HBaseAdmin类的shutdown()方法关闭HBase。按照下面给出关闭HBase的步骤：...

2019-07-01 13:10:01 682

原创 HBase删除表

用drop命令可以删除表。在删除一个表之前必须先将其禁用。 hbase(main):018:0> disable 'emp' 0 row(s) in 1.4580 seconds hbase(main):019:0> drop 'emp' 0 row(s) in 0.3060 seconds使用exists 命令验证表是否被删除。 hbase(main...

2019-07-01 13:09:59 431

原创 HBase Exists

可以使用exists命令验证表的存在。下面的示例演示了如何使用这个命令。 hbase(main):024:0> exists 'emp' Table emp does exist 0 row(s) in 0.0750 seconds ================================================================== ...

2019-07-01 13:09:48 355

原创 HBase表描述和修改

描述该命令返回表的说明。它的语法如下： hbase> describe 'table name'下面给出的是对emp表的describe命令的输出。 hbase(main):006:0> describe 'emp' DESCRIPTION ENABLED 'emp', {NAME => 'READONLY', ...

2019-07-01 13:00:08 731

原创 HBase启用表

启用表的语法： enable ‘emp’给出下面是一个例子，使一个表启用。 hbase(main):005:0> enable 'emp' 0 row(s) in 0.4580 seconds验证启用表之后，扫描。如果能看到的模式，那么证明表已成功启用。 hbase(main):006:0> scan 'emp' ROW ...

2019-06-29 20:00:11 421

原创 HBase禁用表

要删除表或改变其设置，首先需要使用 disable 命令关闭表。使用 enable 命令，可以重新启用它。下面给出的语法是用来禁用一个表： disable ‘emp’下面给出的是一个例子，说明如何禁用表。 hbase(main):025:0> disable 'emp' 0 row(s) in 1.2760 seconds验证禁用表之后，仍然可以通过 lis...

2019-06-29 20:00:09 1506

原创 HBase列出表

list是用来列出HBase中所有表的命令。下面给出了list命令的语法。 hbase(main):001:0 > list当输入这个命令，并在HBase提示符下执行，它会显示HBase中的所有表的列表，如下图所示。 hbase(main):001:0> list TABLE emp 在这里，可以看到一个名为表emp。使用Java API列出表...

2019-06-29 19:59:00 984

原创 HBase创建表

可以使用命令创建一个表，在这里必须指定表名和列族名。在HBase shell中创建表的语法如下所示。 create ‘<table name>’,’<column family>’示例下面给出的是一个表名为emp的样本模式。它有两个列族：“personal data”和“professional data”。Row key personal dat...

2019-06-29 19:57:59 4671

原创 HBase Admin API

HBase是用Java编写的，因此它提供Java API和HBase通信。 Java API是与HBase通信的最快方法。下面给出的是引用Java API管理，涵盖用于管理表的任务。HBaseAdmin类HBaseAdmin是一个类表示管理。这个类属于org.apache.hadoop.hbase.client包。使用这个类，可以执行管理员任务。使用Connection.getAdmin(...

2019-06-29 19:49:57 244

原创 HBase常用命令

HBase常用命令status, version, table_help和whoami。本章将介绍了这些命令。status命令返回包括在系统上运行的服务器的细节和系统的状态。它的语法如下： hbase(main):009:0> status如果执行这个命令，它会返回下面的输出 hbase(main):009:0> status 3 servers, 0 d...

2019-06-29 19:49:55 164

原创 HBase Shell

本章介绍了如何使用自带HBase交互shell启动HBase。HBase ShellHBase包含可以与HBase进行通信的Shell。 HBase使用Hadoop文件系统来存储数据。它拥有一个主服务器和区域服务器。数据存储将在区域(表)的形式。这些区域被分割并存储在区域服务器。主服务器管理这些区域服务器，所有这些任务发生在HDFS。下面给出的是一些由HBase Shell支持的命令。...

2019-06-29 19:49:50 135

原创 HBase安装

安装前设置安装Hadoop在Linux环境下之前，需要建立和使用Linux SSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建用户的步骤。开启root使用命令“su”. 使用root帐户命令创建用户 “useradd username”. 现在，可以...

2019-06-29 19:49:32 1286

原创 HBase架构

在HBase中，表被分割成区域，并由区域服务器提供服务。区域被列族垂直分为“Stores”。Stores被保存在HDFS文件。下面显示的是HBase的结构。注意：术语“store”是用于区域来解释存储结构。HBase有三个主要组成部分：客户端库，主服务器和区域服务器。区域服务器可以按要求添加或删除。主服务器主服务器是–分配区域给区域服务器并在Apache ZooKeepe...

2019-06-29 19:49:25 123

原创 HBase教程

自1970年以来，关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后，好多公司实现处理大数据并从中受益，并开始选择像 Hadoop 的解决方案。Hadoop使用分布式文件系统，用于存储大数据，并使用MapReduce来处理。Hadoop擅长于存储各种格式的庞大的数据，任意的格式甚至非结构化的处理。Hadoop的限制Hadoop只能执行批量处理，并且只以顺序方式访问数据。这意...

2019-06-29 19:49:18 262

原创大数据框架OOZIE 五分钟入门学习

OOZIE 是什么鬼?ApacheOozie是工作流调度用在Hadoop中。它是一个运行相关的作业工作流系统。这里，用户被允许创建向非循环图工作流程，其可以在并列 Hadoop 并顺序地运行。它由两部分组成：工作流引擎：一个工作流引擎的职责是存储和运行工作流程，由 Hadoop 作业组成：MapReduce, Pig, Hive. 协调器引擎：它运行基于预定义的时间表和...

2019-06-28 12:59:59 365

原创大数据框架Flume和Sqoop

在我们了解Flume和Sqoop之前，让我们研究数据加载到Hadoop的问题：使用Hadoop分析处理数据，需要装载大量从不同来源的数据到Hadoop集群。从不同来源大容量的数据加载到Hadoop，然后这个过程处理它，这具有一定的挑战。维护和确保数据的一致性，并确保资源的有效利用，选择正确的方法进行数据加载前有一些因素是要考虑的。主要问题：1. 使用脚本加载数据传统的使用脚...

2019-06-28 12:59:30 374

原创大数据框架MapReduce Hadoop程序连接数据

这里有两个数据集合在两个不同的文件中，如下所示：DEPT_ID 键在这两个文件中常见的。目标是使用 MapReduce 加入来组合这些文件。输入:我们的输入数据集是两个txt文件：DeptName.txt 和 DepStrength.txt下载输入文件前提条件：本教程是在 Linux 上开发 – Ubuntu操作系统已经安装的Hadoop(本教程使用2.7.1版...

2019-06-28 12:58:58 178

原创大数据框架MapReduce计数器和连接

在MapReduce的计数器是用于收集关于 MapReduce 工作的统计信息的机制。这个信息在MapReduce的作业处理的问题的诊断是很有用的。计数器类似于将在 map 或 reduce 在代码日志信息中。通常情况下，这些计数器在一个程序(map 或 reduce)中定义，当一个特定事件或条件(特定于该计数器)发生执行期间递增。计数器是一个很好的应用来从输入数据集跟踪有效和无效的记录。...

2019-06-28 12:58:30 231

原创大数据框架入门基础理解 MapReducer

本教程中的代码分为 3 个部分：解释 SalesMapper 类解释 SalesCountryReducer 类解释 SalesCountryDriver 类SalesMapper类的说明在本节中，我们将了解 SalesMapper 类的实现。我们首先指定类的包名称。SalesCountry就是这个示例中使用的包名。请注意编译的输出，SalesMapper.class...

2019-06-28 12:58:01 281

原创大数据框架Hadoop程序入门实践

问题陈述：找出销往各个国家商品数量。输入:我们的畋输入数据集合是一个 CSV 文件,Sales2014.csv前提条件：本教程是在Linux上开发 – Ubuntu操作系统已经安装了Hadoop(本教程使用版本2.7.1) 系统上已安装了Java(本教程使用 JDK1.8.0)。在实际操作过程中，使用的用户是’hduser_“(此用户使用 Hadoop)。 yi...

2019-06-28 12:56:59 181

原创大数据框架MapReduce简介和入门

MapReduce 是适合海量数据处理的编程模型。Hadoop是能够运行在使用各种语言编写的MapReduce程序：Java, Ruby, Python, and C++. MapReduce程序是平行性的，因此可使用多台机器集群执行大规模的数据分析非常有用的。MapReduce程序的工作分两个阶段进行： Map阶段 Reduce 阶段输入到每一个阶段均是键 – 值对。...

2019-06-28 12:56:20 165

原创大数据框架Hadoop安装

本教程是以Ubuntu 系统作为安装讲解环境，为了减少不必要的麻烦，请您安装Ubuntu并能正常启动进入系统。同时也必须要安装Java。一、添加 Hadoop 系统用户组和用户使用以下命令在终端中执行以下命令来先创建一个用户组： yiibai@ubuntu:~$ sudo addgroup hadoop_操作结果如下：使用以下命令来添加用户： yiibai@u...

2019-06-28 12:54:56 299

原创大数据框架Hadoop HDFS入门

Hadoop 附带了一个名为 HDFS(Hadoop分布式文件系统)的分布式文件系统，基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件，运行在集群的商品硬件上。它是容错的，可伸缩的，并且非常易于扩展。你知道吗? 当数据超过一个单个物理机器上存储的容量，除以跨独立机器数。管理跨越机器的网络存储特定操作被称为分布式文件系统。HDFS集群主要由 Name...

2019-06-28 12:54:54 176

原创大数据框架Hadoop介绍快速入门

ApacheHadoop是用于开发在分布式计算环境中执行的数据处理应用程序的框架。类似于在个人计算机系统的本地文件系统的数据，在 Hadoop 数据保存在被称为作为Hadoop分布式文件系统的分布式文件系统。处理模型是基于“数据局部性”的概念，其中的计算逻辑被发送到包含数据的集群节点(服务器)。这个计算逻辑不过是写在编译的高级语言程序，例如Java. 这样的程序来处理Hadoop存储的 ...

2019-06-28 12:53:58 214

原创大数据框架学习入门Hadoop多节点集群

本章介绍了在分布式环境中Hadoop多节点集群的设置。由于整个集群不能表现出来，这里作为示例，我们使用三个系统(一个主机和两个从机)的Hadoop集群环境;下面给出的是其IP地址。Hadoop 主机: 192.168.1.15 (hadoop-master) Hadoop 从机: 192.168.1.16 (hadoop-slave-1) Hadoop 从机: 192.168.1.17...

2019-06-27 20:57:23 180

原创大数据框架学习入门Hadoop Streaming

Hadoop数据流是Hadoop自带发行的实用程序。该实用程序允许创建和运行Map/Reduce任务的任何可执行文件或脚本映射器和/或减速器。使用Python示例对于Hadoop的数据流，我们考虑的字计数问题。任何工作在Hadoop中必须有两个阶段：映射器和减速器。我们使用python脚本代码映射器和减速器在Hadoop下运行它。使用Perl和Ruby也是类似的。映射阶段代码 ...

2019-06-27 20:57:04 197

原创大数据框架学习入门Hadoop MapReduce

MapReduce它可以编写应用程序来处理海量数据，并行，大集群的普通硬件，以可靠的方式的框架。MapReduce是什么?MapReduce是一种处理技术和程序模型基于Java的分布式计算。 MapReduce算法包含了两项重要任务，即Map 和 Reduce。Map采用了一组数据，并将其转换成另一组数据，其中，各个元件被分解成元组(键/值对)。其次，减少任务，这需要从Map 作为输入并组...

2019-06-27 20:56:48 249

原创大数据框架学习入门Hadoop命令参考

在“$HADOOP_HOME/bin/hadoop fs” 里有更多的命令。./bin/hadoop DFS 列出所有可以使用在FsShell系统上运行的命令。此外，$HADOOP_HOME/bin/hadoop fs -help 命令名称会显示一个简短的用法。所有表的操作如下所示。以下是使用参数一般方式： "<path>" means any file or direct...

2019-06-27 20:56:29 127

原创大数据框架学习入门Hadoop HDFS操作

启动HDFS首先，格式化配置HDFS文件系统，打开NameNode(HDFS服务器)，然后执行以下命令。 $ hadoop namenode -format格式化HDFS后，启动分布式文件系统。以下命令将启动名称节点和数据节点的集群。 $ start-dfs.shHDFS的文件列表加载服务器信息后，使用’ls’ 可以找出文件列表中的目录，文件状态。下面给出的是ls，...

2019-06-27 20:56:12 154

原创大数据框架学习入门Hadoop HDFS

Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统，HDFS是高度容错以及使用低成本的硬件设计。HDFS拥有超大型的数据量，并提供更轻松地访问。为了存储这些庞大的数据，这些文件都存储在多台机器。这些文件都存储以冗余的方式来拯救系统免受可能的数据损失，在发生故障时。 HDFS也使得可用于并行处理的应用程序。HDFS的特点它适用于在分布式存储和处理。...

2019-06-27 20:55:52 158

原创大数据框架学习入门Hadoop环境安装设置

Hadoop由GNU/Linux平台支持(建议)。因此，需要安装一个Linux操作系统并设置Hadoop环境。如果有Linux操作系统等，可以把它安装在VirtualBox(要具备在 VirtualBox内安装Linux经验，没有装过也可以学习试着来)。安装前设置在安装Hadoop之前，需要进入Linux环境下，连接Linux使用SSH(安全Shell)。按照下面提供的步骤设立Linux环...

2019-06-27 20:55:30 162

原创大数据框架学习入门Hadoop是什么？

Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。Hadoop的架构在其核心，Hadoop主要有两个层次，即：加工/计算层(MapReduce)，以及存储层(Hadoo...

2019-06-27 20:55:13 159

原创大数据框架学习入门Hadoop大数据解决方案

传统的企业方法在这种方法中，一个企业将有一个计算机存储和处理大数据。对于存储而言，程序员会自己选择的数据库厂商，如Oracle，IBM等的帮助下完成，用户交互使用应用程序进而获取并处理数据存储和分析。局限性这种方式能完美地处理那些可以由标准的数据库服务器来存储，或直至处理数据的处理器的限制少的大量数据应用程序。但是，当涉及到处理大量的可伸缩数据，这是一个繁忙的任务，只能通过单一的数...

2019-06-27 20:54:48 218

原创大数据框架Hadoop教程

Hadoop是一个开源框架，它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展，每一个台机都可以提供本地计算和存储。“90％的世界数据在过去的几年中产生”。由于新技术，设备和类似的社交网站通信装置的出现，人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式，它可以...

2019-06-27 20:54:29 265

空空如也

空空如也