hadoop
在知识的海洋中遨游
github项目网址:https://github.com/lrn-white/meetingmanagement<br>CSDN博客:https://blog.csdn.net/qq_33283652
展开
-
Hadoop学习记录(四、hadoop实现文件操作)
1.从Hadoop URL读取数据类似cat命令public class URLCat { static{ URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory()); } public static void main(String[] args) throws Excepti...原创 2018-12-04 13:48:46 · 284 阅读 · 0 评论 -
Hadoop学习记录(十五、HBase的安装与使用)
一、概述HBase是一种Hadoop数据库,经常被描述为一种稀疏的,分布式的,持久化的,多维有序映射,它基于行键、列键和时间戳建立索引,是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类,允许动态的、灵活的数据模型,不用SQL语言,也不强调数据之间的关系。HBase被设计成在一个服务器集群上运行,可以相应地横向扩展。二、安装2.1下载并解压2.2配置环境变量...原创 2018-12-18 15:24:27 · 143 阅读 · 0 评论 -
Hadoop学习记录(十四、Spark的安装与使用)
一、概述Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。在处理大规模数据集的时候,速度是非常重要的。Spark的一个重要特点就是能够在内存中计算,因而更快。即使在磁盘上进行的复杂计算,Spark依然比MapReduce更加高效。二、安装2.1下载并解压2.2配置环境vim /...原创 2018-12-18 13:36:22 · 220 阅读 · 0 评论 -
Hadoop学习记录(十三、Crunch的使用)
一、概念Apache Crunch 是基于 FlumeJava 实现的,它是一个基于 MapReduce 的数据管道库。Apache Crunch是一个 Java 类库,它用于简化 MapReduce 作业的编写和执行,并且可以用于简化连接和数据聚合任务API的Java类库。与 Pig 和 Hive 一样,Crunch 是为了降低 MapReduce 的入门成本。它们的区别是:Pig 是一个基...原创 2018-12-17 22:06:49 · 739 阅读 · 0 评论 -
Hadoop学习记录(八、MapReduce特性)
1.计数器统计最高温度的作业,包括统计气温值缺失的记录,不规范的字段和质量代码public class MaxTemperatureWithCounters extends Configured implements Tool { enum Temperature { MISSING, MALFORMED } static cl...原创 2018-12-11 19:11:05 · 177 阅读 · 0 评论 -
快学Scala学习记录(一、scala简介)
一、概述1.1面向对象特性Scala是一种纯面向对象的语言,每个值都是对象。对象的数据类型以及行为由类和特质描述。类抽象机制的扩展有两种途径:一种途径是子类继承,另一种途径是灵活的混入机制。这两种途径能避免多重继承的种种问题。1.2函数式编程Scala也是一种函数式语言,其函数也能当成值来使用。Scala提供了轻量级的语法用以定义匿名函数,支持高阶函数,允许嵌套多层函数,并支持...原创 2018-12-28 13:51:40 · 184 阅读 · 0 评论 -
Hadoop学习记录(七、MapReduce文件分解与合成)
1.将若干个小文件打包成顺序文件public class SmallFilesToSequenceFileConverter extends Configured implements Tool { static class SequenceFileMapper extends Mapper<NullWritable, BytesWritable, Tex...原创 2018-12-11 13:19:32 · 216 阅读 · 0 评论 -
Hadoop学习记录(十二、Hive安装与使用)
一、概述Hive 由 Facebook 实现并开源 是基于 Hadoop 的一个数据仓库工具 可以将结构化的数据映射为一张数据库表 并提供 HQL(Hive SQL)查询功能 底层数据是存储在 HDFS 上 Hive的本质是将 SQL 语句转换为 MapReduce 任务运行 使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离...原创 2018-12-17 14:04:01 · 93 阅读 · 0 评论 -
Hive编程指南学习记录(二、HQL)
1.数据库操作//创建数据库CREATE DATABASE financials;//如果没有同名数据库则创建数据库CREATE DATABASE IF NOT EXISTS financials;//显示所有数据库SHOW DATABASES;//用正则匹配搜索数据库SHOW DATABASES LIKE 'd*';//创建数据库时指定数据库所在目录,否则默认在/user/...原创 2018-12-21 11:27:59 · 98 阅读 · 0 评论 -
Hadoop学习记录(十一、Pig安装与使用)
一、概述什么是Apache Pig?Apache Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与 Hadoop 一起使用;我们可以使用Apache Pig在Hadoop中执行所有的数据处理操作。要编写数据分析程序,Pig提供了一种称为 Pig Latin 的高级语言。该语言提供了各种操作符,程序员可以利用它们开发自己的...原创 2018-12-15 17:17:38 · 345 阅读 · 0 评论 -
Hadoop学习记录(十、Sqoop安装与使用)
一、概述传统的应用程序管理系统,即应用程序与使用RDBMS的关系数据库的交互,是产生大数据的来源之一。由RDBMS生成的这种大数据存储在关系数据库结构中的关系数据库服务器中。当大数据存储和Hadoop生态系统的MapReduce,Hive,HBase,Cassandra,Pig等分析器出现时,他们需要一种工具来与关系数据库服务器进行交互,以导入和导出驻留在其中的大数据。在这里,Sqoop在...原创 2018-12-14 15:21:36 · 142 阅读 · 0 评论 -
Hadoop学习记录(六、MapReduce测试)
1.MRUnit进行单元测试加入依赖 <dependency> <groupId>org.apache.mrunit</groupId> <artifactId>mrunit</artifactId> <version>1.1.0&...原创 2018-12-07 15:24:06 · 185 阅读 · 0 评论 -
Hadoop学习记录(九、Flume安装与使用)
原理详见http://www.cnblogs.com/zhangyinhua/p/7803486.html1.Flume安装1.1官网上下载一个稳定版本并解压1.2添加配置变量vim /etc/profileexport FLUME_HOME=/usr/local/flume-1.8.0export PATH=$FLUME_HOME/bin:$PATH1.3添加jdk...原创 2018-12-14 09:58:34 · 360 阅读 · 0 评论 -
Hadoop学习记录(五、hadoop IO操作)
1.压缩从标准输入读取的数据,然后将其写到标准输出通过GzipCodec的StreamCompressor对象对字符串“Text”进行压缩,再使用gunzip从标准输出中对它进行读取并解压缩public class StreamCompressor { public static void main(String[] args) throws Exception { ...原创 2018-12-05 14:29:36 · 335 阅读 · 1 评论 -
Hadoop学习记录(三、MapReduce简单demo)
1.将一个日志文件上传到hdfs上2. 编写mapReduce代码2.1新建一个maven项目,添加依赖<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hado...原创 2018-11-30 21:08:57 · 232 阅读 · 0 评论 -
Hadoop学习记录(二、hdfs shell命令)
在/usr/local/hadoop-2.9.2/bin目录下运行命令1.查看根目录:./hdfs dfs -ls /2.文件上传:上传到根目录./hdfs dfs -put /tmp/test.txt / 3.查看文件内容./hdfs dfs -cat /test.txt 4.新建文件夹./hdfs dfs -mkdir /test5...原创 2018-11-30 18:49:32 · 156 阅读 · 0 评论 -
Hadoop学习记录(一、Hadoop集群的搭建)
参考:http://www.zuidemo.com/filePreview/pdfFilePreview/11202并进行补充参考:https://blog.csdn.net/wuapeng/article/details/797921611.新建七个centos7系统的虚拟机,分别命名为cluster1,cluster2等。关闭防火墙。2.七台主机都修改host文件vi /et...原创 2018-11-30 10:34:16 · 164 阅读 · 0 评论 -
Hive编程指南学习记录(一、基础知识)
1.Hive适合于数据仓库应用程序,使用该应用程序进行相关的静态数据分析,不需要快速响应给出结果,而且数据不会频繁变化。2.Hive不是一个完整的数据库,不支持记录级别的更新,删除,插入操作。但可以通过查询将结果生成新表或导入文件中。3.Hive不支持事务。4.Hadoop是一个面向批处理的系统,MapReduce任务的启动过程需要消耗较长的时间,所以Hive的查询延时比较严重。...原创 2018-12-19 11:05:34 · 138 阅读 · 0 评论