- 博客(26)
- 资源 (13)
- 收藏
- 关注
原创 spark学习记录(四、算子(函数))
1.Transformations转换算子Transformations类算子是一类算子(函数)叫做转换算子,如map,flatMap,reduceByKey等。Transformations算子是延迟执行,也叫懒加载执行。filter:过滤符合条件的记录数,true保留,false过滤掉。 map:将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。输入一条,输出一条数...
2018-12-29 16:56:06 223
原创 spark学习记录(二、RDD)
一、概念RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。RDD的五大特性:RDD是由...
2018-12-29 14:19:22 192 1
原创 spark学习记录(三、spark集群搭建)
一、安装spark1.上传压缩包并解压2.在conf目录下配置slavescp slaves.template slaves//在master机上配置worker节点hadoop2hadoop33.配置spark-env.shcp spark-env.sh.template spark-env.shexport SPARK_MASTER_IP=hadoop1...
2018-12-29 11:35:11 174
原创 spark学习记录(一、scala与java编写wordCount比较)
添加依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.0</ve...
2018-12-29 10:03:16 214
原创 快学Scala学习记录(一、scala简介)
一、概述1.1面向对象特性Scala是一种纯面向对象的语言,每个值都是对象。对象的数据类型以及行为由类和特质描述。类抽象机制的扩展有两种途径:一种途径是子类继承,另一种途径是灵活的混入机制。这两种途径能避免多重继承的种种问题。1.2函数式编程Scala也是一种函数式语言,其函数也能当成值来使用。Scala提供了轻量级的语法用以定义匿名函数,支持高阶函数,允许嵌套多层函数,并支持...
2018-12-28 13:51:40 184
原创 HBase权威指南学习记录(五、hbase与MapReduce集成)
添加依赖: <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.4.9</versio...
2018-12-26 16:13:25 154
原创 HBase权威指南学习记录(四、计数器)
一、概念很多收集统计信息的应用,例如在线广告的单击或查看统计,将这些数据收集到日志文件中用于后期的分析。利用计数器提供的实时统计,从而放弃延时较高的批处理操作。二、数据操作3.java操作 public class HbaseDemo { private static Configuration conf = HBaseConfiguration.create();...
2018-12-26 09:53:48 240
原创 HBase权威指南学习记录(三、过滤器)
基础API中的查询操作在面对大量数据的时候是非常苍白的,这里Hbase提供了高级的查询方法:Filter。Filter可以根据簇、列、版本等更多的条件来对数据进行过滤,基于Hbase本身提供的三维有序(主键有序、列有序、版本有序),这些Filter可以高效的完成查询过滤的任务。带有Filter条件的RPC查询请求会把Filter分发到各个RegionServer,是一个服务器端(Ser...
2018-12-25 16:00:31 263
原创 HBase权威指南学习记录(二、java操作实现增删改查)
一、表的创建及增删改查public class HbaseDemo { private static Configuration conf = HBaseConfiguration.create(); private static Admin admin; static { conf.set("hbase.rootdir", "hdfs://hado...
2018-12-25 14:04:37 176
原创 在本机用IDEA连接虚拟机开发hbase
1.将hbase-site.xml文件放到resourcs目录下<configuration><!-- 指定hbase在hdfs上存储的路径 --> <property> <name>hbase.rootdir</name> <value>hdfs:/...
2018-12-24 19:53:33 3633 1
原创 HBase权威指南学习记录(一、基本操作)
HBase表是由Key-Value组成的,下面给出一个hbase表的格式 此表有两个列族,列族1和列族2,其中列族1和列族2下分别有两个列name和age,phone和address //创建表及列族create 'student','cf1','cf2'//一列一列添加数据put 'student','001','cf1:name','Tom'put 'student','...
2018-12-24 15:55:17 205
原创 Hive编程指南学习记录(二、HQL)
1.数据库操作//创建数据库CREATE DATABASE financials;//如果没有同名数据库则创建数据库CREATE DATABASE IF NOT EXISTS financials;//显示所有数据库SHOW DATABASES;//用正则匹配搜索数据库SHOW DATABASES LIKE 'd*';//创建数据库时指定数据库所在目录,否则默认在/user/...
2018-12-21 11:27:59 98
原创 Hive编程指南学习记录(一、基础知识)
1.Hive适合于数据仓库应用程序,使用该应用程序进行相关的静态数据分析,不需要快速响应给出结果,而且数据不会频繁变化。2.Hive不是一个完整的数据库,不支持记录级别的更新,删除,插入操作。但可以通过查询将结果生成新表或导入文件中。3.Hive不支持事务。4.Hadoop是一个面向批处理的系统,MapReduce任务的启动过程需要消耗较长的时间,所以Hive的查询延时比较严重。...
2018-12-19 11:05:34 138
原创 Hadoop学习记录(十五、HBase的安装与使用)
一、概述HBase是一种Hadoop数据库,经常被描述为一种稀疏的,分布式的,持久化的,多维有序映射,它基于行键、列键和时间戳建立索引,是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类,允许动态的、灵活的数据模型,不用SQL语言,也不强调数据之间的关系。HBase被设计成在一个服务器集群上运行,可以相应地横向扩展。二、安装2.1下载并解压2.2配置环境变量...
2018-12-18 15:24:27 143
原创 Hadoop学习记录(十四、Spark的安装与使用)
一、概述Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。在处理大规模数据集的时候,速度是非常重要的。Spark的一个重要特点就是能够在内存中计算,因而更快。即使在磁盘上进行的复杂计算,Spark依然比MapReduce更加高效。二、安装2.1下载并解压2.2配置环境vim /...
2018-12-18 13:36:22 220
原创 Hadoop学习记录(十三、Crunch的使用)
一、概念Apache Crunch 是基于 FlumeJava 实现的,它是一个基于 MapReduce 的数据管道库。Apache Crunch是一个 Java 类库,它用于简化 MapReduce 作业的编写和执行,并且可以用于简化连接和数据聚合任务API的Java类库。与 Pig 和 Hive 一样,Crunch 是为了降低 MapReduce 的入门成本。它们的区别是:Pig 是一个基...
2018-12-17 22:06:49 739
原创 Hadoop学习记录(十二、Hive安装与使用)
一、概述Hive 由 Facebook 实现并开源 是基于 Hadoop 的一个数据仓库工具 可以将结构化的数据映射为一张数据库表 并提供 HQL(Hive SQL)查询功能 底层数据是存储在 HDFS 上 Hive的本质是将 SQL 语句转换为 MapReduce 任务运行 使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离...
2018-12-17 14:04:01 93
原创 Hadoop学习记录(十一、Pig安装与使用)
一、概述什么是Apache Pig?Apache Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与 Hadoop 一起使用;我们可以使用Apache Pig在Hadoop中执行所有的数据处理操作。要编写数据分析程序,Pig提供了一种称为 Pig Latin 的高级语言。该语言提供了各种操作符,程序员可以利用它们开发自己的...
2018-12-15 17:17:38 345
原创 Hadoop学习记录(十、Sqoop安装与使用)
一、概述传统的应用程序管理系统,即应用程序与使用RDBMS的关系数据库的交互,是产生大数据的来源之一。由RDBMS生成的这种大数据存储在关系数据库结构中的关系数据库服务器中。当大数据存储和Hadoop生态系统的MapReduce,Hive,HBase,Cassandra,Pig等分析器出现时,他们需要一种工具来与关系数据库服务器进行交互,以导入和导出驻留在其中的大数据。在这里,Sqoop在...
2018-12-14 15:21:36 143
原创 Hadoop学习记录(九、Flume安装与使用)
原理详见http://www.cnblogs.com/zhangyinhua/p/7803486.html1.Flume安装1.1官网上下载一个稳定版本并解压1.2添加配置变量vim /etc/profileexport FLUME_HOME=/usr/local/flume-1.8.0export PATH=$FLUME_HOME/bin:$PATH1.3添加jdk...
2018-12-14 09:58:34 360
原创 Hadoop学习记录(八、MapReduce特性)
1.计数器统计最高温度的作业,包括统计气温值缺失的记录,不规范的字段和质量代码public class MaxTemperatureWithCounters extends Configured implements Tool { enum Temperature { MISSING, MALFORMED } static cl...
2018-12-11 19:11:05 177
原创 Hadoop学习记录(七、MapReduce文件分解与合成)
1.将若干个小文件打包成顺序文件public class SmallFilesToSequenceFileConverter extends Configured implements Tool { static class SequenceFileMapper extends Mapper<NullWritable, BytesWritable, Tex...
2018-12-11 13:19:32 216
原创 Hadoop学习记录(六、MapReduce测试)
1.MRUnit进行单元测试加入依赖 <dependency> <groupId>org.apache.mrunit</groupId> <artifactId>mrunit</artifactId> <version>1.1.0&...
2018-12-07 15:24:06 185
原创 Hadoop学习记录(五、hadoop IO操作)
1.压缩从标准输入读取的数据,然后将其写到标准输出通过GzipCodec的StreamCompressor对象对字符串“Text”进行压缩,再使用gunzip从标准输出中对它进行读取并解压缩public class StreamCompressor { public static void main(String[] args) throws Exception { ...
2018-12-05 14:29:36 335 1
原创 Hadoop学习记录(四、hadoop实现文件操作)
1.从Hadoop URL读取数据类似cat命令public class URLCat { static{ URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory()); } public static void main(String[] args) throws Excepti...
2018-12-04 13:48:46 284
win10 下spark2.2.0+hadoop2.7.7+winutis 2
2019-03-26
win10 下spark2.2.0+hadoop2.7.7+winutis 1
2019-03-26
智慧交通实战项目源码2 分卷2
2019-01-14
智慧交通实战项目源码1 分卷1
2019-01-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人