2018年12月_在知识的海洋中遨游

12月 11月 10月 09月 08月 07月 05月 04月

原创 spark学习记录（四、算子（函数））

1.Transformations转换算子Transformations类算子是一类算子（函数）叫做转换算子，如map,flatMap,reduceByKey等。Transformations算子是延迟执行，也叫懒加载执行。filter：过滤符合条件的记录数，true保留，false过滤掉。 map：将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入一条，输出一条数...

2018-12-29 16:56:06 223

原创 spark学习记录（二、RDD）

一、概念RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。RDD的五大特性：RDD是由...

2018-12-29 14:19:22 192 1

原创 spark学习记录（三、spark集群搭建）

一、安装spark1.上传压缩包并解压2.在conf目录下配置slavescp slaves.template slaves//在master机上配置worker节点hadoop2hadoop33.配置spark-env.shcp spark-env.sh.template spark-env.shexport SPARK_MASTER_IP=hadoop1...

2018-12-29 11:35:11 174

原创 spark学习记录（一、scala与java编写wordCount比较）

添加依赖： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.0</ve...

2018-12-29 10:03:16 214

原创快学Scala学习记录（一、scala简介）

一、概述1.1面向对象特性Scala是一种纯面向对象的语言，每个值都是对象。对象的数据类型以及行为由类和特质描述。类抽象机制的扩展有两种途径：一种途径是子类继承，另一种途径是灵活的混入机制。这两种途径能避免多重继承的种种问题。1.2函数式编程Scala也是一种函数式语言，其函数也能当成值来使用。Scala提供了轻量级的语法用以定义匿名函数，支持高阶函数，允许嵌套多层函数，并支持...

2018-12-28 13:51:40 184

原创 HBase权威指南学习记录（五、hbase与MapReduce集成）

添加依赖： <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.4.9</versio...

2018-12-26 16:13:25 154

原创 HBase权威指南学习记录（四、计数器）

一、概念很多收集统计信息的应用，例如在线广告的单击或查看统计，将这些数据收集到日志文件中用于后期的分析。利用计数器提供的实时统计，从而放弃延时较高的批处理操作。二、数据操作3.java操作 public class HbaseDemo { private static Configuration conf = HBaseConfiguration.create();...

2018-12-26 09:53:48 240

原创 HBase权威指南学习记录（三、过滤器）

基础API中的查询操作在面对大量数据的时候是非常苍白的，这里Hbase提供了高级的查询方法：Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤，基于Hbase本身提供的三维有序（主键有序、列有序、版本有序），这些Filter可以高效的完成查询过滤的任务。带有Filter条件的RPC查询请求会把Filter分发到各个RegionServer，是一个服务器端（Ser...

2018-12-25 16:00:31 263

原创 HBase权威指南学习记录（二、java操作实现增删改查）

一、表的创建及增删改查public class HbaseDemo { private static Configuration conf = HBaseConfiguration.create(); private static Admin admin; static { conf.set("hbase.rootdir", "hdfs://hado...

2018-12-25 14:04:37 176

原创在本机用IDEA连接虚拟机开发hbase

1.将hbase-site.xml文件放到resourcs目录下<configuration> <property> <name>hbase.rootdir</name> <value>hdfs:/...

2018-12-24 19:53:33 3633 1

原创 HBase权威指南学习记录（一、基本操作）

HBase表是由Key-Value组成的，下面给出一个hbase表的格式此表有两个列族，列族1和列族2，其中列族1和列族2下分别有两个列name和age，phone和address //创建表及列族create 'student','cf1','cf2'//一列一列添加数据put 'student','001','cf1:name','Tom'put 'student','...

2018-12-24 15:55:17 205

原创 Hive编程指南学习记录（二、HQL）

1.数据库操作//创建数据库CREATE DATABASE financials;//如果没有同名数据库则创建数据库CREATE DATABASE IF NOT EXISTS financials;//显示所有数据库SHOW DATABASES;//用正则匹配搜索数据库SHOW DATABASES LIKE 'd*';//创建数据库时指定数据库所在目录，否则默认在/user/...

2018-12-21 11:27:59 98

原创 Hive编程指南学习记录（一、基础知识）

1.Hive适合于数据仓库应用程序，使用该应用程序进行相关的静态数据分析，不需要快速响应给出结果，而且数据不会频繁变化。2.Hive不是一个完整的数据库，不支持记录级别的更新，删除，插入操作。但可以通过查询将结果生成新表或导入文件中。3.Hive不支持事务。4.Hadoop是一个面向批处理的系统，MapReduce任务的启动过程需要消耗较长的时间，所以Hive的查询延时比较严重。...

2018-12-19 11:05:34 138

原创 Hadoop学习记录（十五、HBase的安装与使用）

一、概述HBase是一种Hadoop数据库，经常被描述为一种稀疏的，分布式的，持久化的，多维有序映射，它基于行键、列键和时间戳建立索引，是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类，允许动态的、灵活的数据模型，不用SQL语言，也不强调数据之间的关系。HBase被设计成在一个服务器集群上运行，可以相应地横向扩展。二、安装2.1下载并解压2.2配置环境变量...

2018-12-18 15:24:27 143

原创 Hadoop学习记录（十四、Spark的安装与使用）

一、概述Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型，而且高效地支持更多的计算模式，包括交互式查询和流处理。在处理大规模数据集的时候，速度是非常重要的。Spark的一个重要特点就是能够在内存中计算，因而更快。即使在磁盘上进行的复杂计算，Spark依然比MapReduce更加高效。二、安装2.1下载并解压2.2配置环境vim /...

2018-12-18 13:36:22 220

一、概念Apache Crunch 是基于 FlumeJava 实现的，它是一个基于 MapReduce 的数据管道库。Apache Crunch是一个 Java 类库，它用于简化 MapReduce 作业的编写和执行，并且可以用于简化连接和数据聚合任务API的Java类库。与 Pig 和 Hive 一样，Crunch 是为了降低 MapReduce 的入门成本。它们的区别是：Pig 是一个基...

2018-12-17 22:06:49 739

原创 maven项目连同外部jar包一起打包

1.在resources目录下新建目录lib并将外部jar包放在该目录下2.修改pom文件3.将项目打包

2018-12-17 16:51:25 780

原创 Hadoop学习记录（十二、Hive安装与使用）

一、概述Hive 由 Facebook 实现并开源是基于 Hadoop 的一个数据仓库工具可以将结构化的数据映射为一张数据库表并提供 HQL(Hive SQL)查询功能底层数据是存储在 HDFS 上 Hive的本质是将 SQL 语句转换为 MapReduce 任务运行使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离...

2018-12-17 14:04:01 93

原创 Hadoop学习记录（十一、Pig安装与使用）

一、概述什么是Apache Pig？Apache Pig是MapReduce的一个抽象。它是一个工具/平台，用于分析较大的数据集，并将它们表示为数据流。Pig通常与 Hadoop 一起使用；我们可以使用Apache Pig在Hadoop中执行所有的数据处理操作。要编写数据分析程序，Pig提供了一种称为 Pig Latin 的高级语言。该语言提供了各种操作符，程序员可以利用它们开发自己的...

2018-12-15 17:17:38 345

原创 Hadoop学习记录（十、Sqoop安装与使用）

一、概述传统的应用程序管理系统，即应用程序与使用RDBMS的关系数据库的交互，是产生大数据的来源之一。由RDBMS生成的这种大数据存储在关系数据库结构中的关系数据库服务器中。当大数据存储和Hadoop生态系统的MapReduce，Hive，HBase，Cassandra，Pig等分析器出现时，他们需要一种工具来与关系数据库服务器进行交互，以导入和导出驻留在其中的大数据。在这里，Sqoop在...

2018-12-14 15:21:36 143

原创 Hadoop学习记录（九、Flume安装与使用）

原理详见http://www.cnblogs.com/zhangyinhua/p/7803486.html1.Flume安装1.1官网上下载一个稳定版本并解压1.2添加配置变量vim /etc/profileexport FLUME_HOME=/usr/local/flume-1.8.0export PATH=$FLUME_HOME/bin:$PATH1.3添加jdk...

2018-12-14 09:58:34 360

原创 Hadoop学习记录（八、MapReduce特性）

1.计数器统计最高温度的作业，包括统计气温值缺失的记录，不规范的字段和质量代码public class MaxTemperatureWithCounters extends Configured implements Tool { enum Temperature { MISSING, MALFORMED } static cl...

2018-12-11 19:11:05 177

原创 Hadoop学习记录（七、MapReduce文件分解与合成）

1.将若干个小文件打包成顺序文件public class SmallFilesToSequenceFileConverter extends Configured implements Tool { static class SequenceFileMapper extends Mapper<NullWritable, BytesWritable, Tex...

2018-12-11 13:19:32 216

原创 Hadoop学习记录（六、MapReduce测试）

1.MRUnit进行单元测试加入依赖 <dependency> <groupId>org.apache.mrunit</groupId> <artifactId>mrunit</artifactId> <version>1.1.0&...

2018-12-07 15:24:06 185

原创 Hadoop学习记录（五、hadoop IO操作）

1.压缩从标准输入读取的数据，然后将其写到标准输出通过GzipCodec的StreamCompressor对象对字符串“Text”进行压缩，再使用gunzip从标准输出中对它进行读取并解压缩public class StreamCompressor { public static void main(String[] args) throws Exception { ...

2018-12-05 14:29:36 335 1

原创 Hadoop学习记录（四、hadoop实现文件操作）

1.从Hadoop URL读取数据类似cat命令public class URLCat { static{ URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory()); } public static void main(String[] args) throws Excepti...

2018-12-04 13:48:46 284