2021年02月_哈哈哈捧场王

原创 Scala之面向对象

一、包1.1 Scala包1.1.1 基本语法package 包名.类名1.1.2 Scala包的作用(和Java一样)区分相同名字的类当类很多时候，可以很好的管理类控制访问范围1.2 包的命名命名规则只能包含数字、字母、下划线、小圆点.，但不能用数字开头，也不要使用关键字例如demo.class.exec1 //错误，因为 class 关键字demo.12a //错误，数字开头命名规范：一般都是小写字母+"." 例如tiger.sc

2021-02-22 22:04:59 258

原创 Scala之函数式编程

一、多范式编程面向对象编程：解决问题时，分解对象，行为，属性，然后通过对象的关系以及行为的调用来解决问题。 Scala语言是一个完全面向对象编程的语言。万物皆对象对象的本质：对数据和行为的一个封装函数式编程：解决问题时，将问题分解成一个一个的步骤，将每个步骤进行封装（函数），通过调用这些封装好的步骤，解决问题 Scala语言是一个完全函数式编程语言。万物皆函数。函数的本质：函数可以当做一个值进行传递在Scala中函数式编程和面向对象编程完美融合在一起了。二、函数基础

2021-02-20 10:13:40 185

原创 Scala流程控制

一、分支控制if-else1.1 单分支1.1.1 基本语法if (条件表达式) { 执行代码块}1.1.2 案例输入人的年龄，如果该同志的年龄小于18岁，则输出“童年”object TestIfElse { def main(args: Array[String]): Unit = { println("input age:") var age = StdIn.readShort() if (a

2021-02-18 21:04:52 245

原创 Scala数据类型以及运算符

一、变量和数据类型1.1 注释和java完全一样package tiger.scala.chapter02// 单行注释：可以出现在程序中的任意位置/** 多行注释** *//** * 文档注释：只能出现在类和方法上 * @param args * * */object Scala01_TestComm {}1.2 变量和常量1.2.1 基本语法var 变量名:变量类型 = 值val 常量名:常量类型 = 值1.2.2 案例声明变量时，类

2021-02-17 22:15:22 215

原创 Scala语言简介以及开发环境部署

一、概述1.1 为什么学习scalaSpark就是使用Scala编写的，为了更好的学习Spark，需要掌握Scala这门语言 Spark的兴起，带动了Scala语言的发展1.2 Scala与Java的关系Scala是基于Java的1.3Scala语言的特点Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言 Scala是一门多范式的编程语言，Scala支持面向对象和函数式编程（多范式就是多种编程方法的意思。）。 .

2021-02-16 21:03:06 555

原创大数据组件之sqoop

一、Sqoop简介 Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle...)之间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。二、Sqoop原理将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。三、Sqo

2021-02-09 21:51:04 229

原创大数据组件之Phoneix

一、Phoneix简介1.1Phoenix 定义Phoenix构建在 HBase 之上的开源 SQL 层. 能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据, 从而可以避免使用 HBase 的客户端 API.在我们的应用和 HBase 之间添加了 Phoenix, 并不会降低性能, 而且我们也少写了很多代码。1.2Phoenix特点将 SQl 查询编译为 HBase 扫描确定扫描 Rowkey 的最佳开始和结束位置扫描并行执行将 where..

2021-02-09 14:47:16 3260

原创 HBase优化

一、HBase高可用在HBase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。关闭HBase集群在conf目录下创建backup-masters文件 vim backup-masters在backup-masters文件中加入配置高可用的HMaster节点，格式和re.

2021-02-09 08:58:09 117

原创 HBase和Hive集成

一、准备HBase和Hive不兼容，所以要重新编译hive-HBase-handler-1.2.2.jar 将操作HBase的jar包拷到Hive下，或者使用软连接ln -s $HBASE_HOME/lib/HBase-common-1.3.1.jar $HIVE_HOME/lib/HBase-common-1.3.1.jarln -s $HBASE_HOME/lib/HBase-server-1.3.1.jar $HIVE_HOME/lib/HBase-server-1.3.1.jarln

2021-02-08 16:45:48 167

原创 HBase和MapReduce结合

一、准备让Hadoop加载HBase的jar包法一：将HBase中的所有的jar包都导入到Hadoop的lib目录下法二：将HBase的包地址写到Hadoop的hadoop-env.sh文件中 export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:HBase的目录/lib/*二、运行官方MapReduce任务案例一：统计t1表的Cell的数量hadoop jar hbase-server-1.3.1.jar CellCounter t1 /hba

2021-02-08 10:55:00 558

原创 HBaseAPI操作

一、HBase配置在idea中创建maven工程，导入以下依赖<dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.3.1</version>

2021-02-07 16:59:32 297

原创 Hbase简介

第一章 NoSQL简介1.1 关系型数据库查询瓶颈当用户表的数据达到几千万甚至几亿级别的时候，对单条数据的检索将花费数秒甚至达到分钟级别。实际情况更复杂，查询的操作速度将会受到以下两个因素的影响高并发的更新(插入、修改、删除)操作。大中型网站的并发操作一般能达到几十乃至几百并发，此时单条数据查询的延时将轻而易举地达到分钟级别。多表关联后的复杂查询，以及频繁的group by或者order by操作，此时，性能下降较为明显。 1.2 CAP定理CAP定理 Consistency（强

2021-02-06 21:01:14 2299

原创 kafka的简单使用

第一章Kafka概述1.1 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。 1.2消息队列1.2.1传统消息队列的应用场景1.2.2消息队列的两种模式点对点模式：一对一，消费者主动拉取数据，消息收到后消息清除。消息生产者生产消息发送到Queue中，然后消息消费者从Queue中取出并且消费消息。消息被消费以后，queue中不再有存储，所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个...

2021-02-05 12:00:19 489

原创 Flume简介

第一章 Flume概念1.1 Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。 Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS1.2 Flume架构Agent：Agent是一个JVM进程，它以事件的形式将数据从源头送至目的，主要有3个部分组成，Source、Channel、Sink。 Source：负责接收数据到Flume Agent的组件。Sourc

2021-02-03 10:35:47 178

原创 Hive调优

一、Fetch抓取 Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查找等都不走ma

2021-02-02 12:39:26 70

原创 Hive练习

一、表结构视频表字段备注详细描述 video id 视频唯一id 11位字符串 uploader 视频上传者上传视频的用户名String age 视频年龄视频在平台上的整数天 category 视频类别

2021-02-01 22:23:01 133

原创 Hive压缩和存储

第一章压缩和存储1.1 Hadoop压缩配置1.1.1 MapReduce支持的压缩编码压缩格式工具算法文件扩展名是否可切分 DEFAULT 无 DEFAULT .deflate 否 Gzip gzip DEFAULT

2021-02-01 14:57:46 102

Trony的博客