自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

云祁QI

人生,海海,破浪前行。

  • 博客(50)
  • 资源 (2)
  • 收藏
  • 关注

原创 【Scala】(六)Scala 基础之集合、序列操作大全

一、前言数组是一种可变的、可索引的数据集合。在Scala中用Array[T]的形式来表示Java中的数组形式 T[]。val numbers = Array(1, 2, 3, 4) //声明一个数组对象val first = numbers(0) // 读取第一个元素numbers(3) = 100 // 替换第四个元素为100val biggerNumbers = numbers.ma...

2019-12-29 22:28:47 1405 3

原创 【Scala】(二)Scala 基本语法及操作、程序控制结构

文章目录一、Scala概述二、第一个Scala程序三、Scala的基本语法1、概述2、Scala的数据类型3、Scala的变量4、Scala访问修饰符(1)私有成员 private(2)protected(3)public(4)作用保护域5、Scala运算符6、条件表达式7、块表达式8、循环(1)while循环(2)for循环一、Scala概述scala是一门多范式编程语言,集成了面向对象编程...

2019-12-28 14:41:11 1724

原创 【HBase】(十)过滤器

文章目录一、过滤器(Filter)抽象操作符(比较运算符)比较器(指定比较机制)二、HBase过滤器的分类比较过滤器1、行键过滤器 RowFilter2、列簇过滤器 FamilyFilter3、列过滤器 QualifierFilter4、值过滤器 ValueFilter5、时间戳过滤器 TimestampsFilter专用过滤器1、单列值过滤器 SingleColumnValueFilter --...

2019-12-27 21:31:34 1449

原创 【HBase】(九)MapReduce 操作 Hbase

文章目录一、MapReduce从HDFS读取数据存储到HBase中二、MapReduce从HBase读取数据计算平均年龄并存储到HDFS中一、MapReduce从HDFS读取数据存储到HBase中现有HDFS中有一个student.txt文件,格式如下95002,刘晨,女,19,IS95017,王风娟,女,18,IS95018,王一,女,19,IS95013,冯伟,男,21,CS95...

2019-12-27 20:34:16 1148

原创 【Scala】(三)Scala 基础之运算符

文章目录一、运算符介绍二、算术运算符三、关系运算符(比较运算符)四、逻辑运算符五、赋值运算符六、位运算符运算符的特别说明运算符优先级一、运算符介绍运算符是一种特殊的符号,用以表示数据的运算、赋值和比较等。算术运算符赋值运算符比较运算符(关系运算符)逻辑运算符位运算符二、算术运算符算术运算符(arithmetic)是对数值类型的变量进行运算的,在Scala程序中使用的非常多。...

2019-12-25 10:01:20 1551

原创 【Scala】(四)Scala 基础之变量、数据类型

文章目录一、Scala变量使用说明二、数据类型一、Scala变量使用说明变量声明基本语法var | val 变量名 [: 变量类型] = 变量值注意事项声明变量时,类型可以省略(编译器自动推导,即类型推导)类型确定后,就不能修改,说明Scala 是强数据类型语言在声明/定义一个变量时,可以使用var 或者 val 来修饰, var 修饰的变量可改变,val 修饰的变量不...

2019-12-24 23:41:20 1088

原创 【Scala】(一)Scala 概述及安装环境部署

文章目录一、why is Scala语言?二、Scala语言的特点三、Windows下搭建Scala开发环境四、配置 IDEA五、Scala语言快速开发入门一、why is Scala语言?Spark—新一代内存级大数据计算框架,是大数据的重要内容。Spark就是使用Scala编写的。因此为了更好的学习Spark, 需要掌握Scala这门语言。Scala 是 Scalable Langua...

2019-12-24 22:56:55 1573

原创 【HBase】(八)往 HBase 导入数据的几种操作

文章目录一、前言二、利用ImportTsv将csv文件导入到HBase三、利用completebulkload将数据导入到HBase四、利用Import将数据导入到HBase一、前言HBase作为Hadoop DataBase,除了使用put进行数据导入之外,还有以下几种导入数据的方式:(1)使用importTsv功能将csv文件导入HBase;(2)使用import功能,将数据导入HBa...

2019-12-24 19:47:59 2062

原创 【HBase】(四)HBase 命名空间、建表、增删改查(速记版)

进入HBase数据库# hbase shell注意HBase Shell 中的回格键没用,要用【Ctrl+Backspace】,每个命令之后不需要分号(;)结束。HBase帮助命令:hbase> help 'create'命名空间列出所有命名空间hbase> list_namespace新建命名空间hbase> create_namespace 'ns1'删除...

2019-12-24 19:36:40 1592

原创 【HBase】(七)Hbase 常用API(增删改查)

文章目录一、环境准备二、HBaseAPI2.1 获取Configuration 对象2.2 判断表是否存在一、环境准备新建项目后在pom.xml 中添加依赖: <!-- https://mvnrepository.com/artifact/org.apache.hbase/hbase-client --> <dependency> <g...

2019-12-23 23:52:41 1384 1

原创 【HBase】(六)详解 HBase 的读、写流程(面试重点)

文章目录一、HBase 写流程二、HBase 读流程一、HBase 写流程写流程:Client 先访问zookeeper,获取hbase:meta 表位于哪个Region Server。访问对应的 Region Server,获取 hbase:meta 表,根据读请求的 namespace:table/rowkey,查询出目标数据位于哪个 Region Server 中的哪个 Regi...

2019-12-23 22:57:33 1299

原创 【Zookeeper】(二)Zookeeper 集群搭建

文章目录一、软件版本与系统环境二、zookeeper 安装1、xftp上传zookeeper压缩包并解压2、进入解压好的安装包 在conf文件夹下配置环境3、配置环境变量4、启动zookeeper三、配置文件中的注意点1、基本配置2、高级配置一、软件版本与系统环境下载地址:http://mirrors.hust.edu.cn/apache/ZooKeeper/二、zookeeper 安装1...

2019-12-23 22:33:55 1153 1

原创 【Zookeeper】(一)入门

文章目录一、概述二、Zookeeper 的特点三、数据结构四、应用场景一、概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的...

2019-12-23 22:20:37 1114

原创 【Sqoop】(二)Sqoop 的简单使用案例

文章目录一、导入数据1.1 RDBMS到HDFS1.2 RDBMS到Hive1.3 RDBMS到Hbase二、导出数据2.1 HIVE/HDFS到RDBMS三、脚本打包一、导入数据在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。1.1 RDBMS到HDFS确定Mysql服务开启正常...

2019-12-23 19:44:04 1282

原创 【Sqoop】(一)Sqoop 概述及安装环境搭建

文章目录一、Sqoop简介二、Sqoop原理三、Sqoop安装3.1 下载并解压3.2 修改配置文件3.3 拷贝JDBC驱动3.4 配置环境变量3.5 验证是否安装成功一、Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如: MySQL ,Oracle ,Postgre...

2019-12-23 19:19:30 1355

原创 【Hbase】(五)HBase 原理

文章目录一、系统架构1、Client2、ZooKeeper3、Master4、RegionServer5、HRegion6、Store (文件存储区)7、MemStore8、StoreFile9、HFile10、HLog二、物理存储1、整体的物理结构2、StoreFile 和 HFile 结构3、MemStore 和 StoreFile三、Hbase WAL HLog预写四、Region 寻址机制...

2019-12-21 19:54:14 1359

原创 【HBase】(四)HBase 集群Shell操作

文章目录一、进入HBase命令行二、HBase表的操作三、创建create四、查看表列表list五、查看表的详细信息desc六、修改表的定义alter1、添加一个列簇2、删除一个列簇3、添加列簇hehe同时删除列簇myInfo4、清空表truncate5、删除表drop七、HBase表中数据的操作八、增put九、查get + scan十、 删delete一、进入HBase命令行在你安装的随意台...

2019-12-21 15:56:49 1295

原创 【HBase】(三)HBase 集群安装

文章目录一、前言二、JDK / Hadoop 的选择三、安装1、zookeeper的安装2、Hadoopd的安装3、下载安装包4、上传服务器并解压缩到指定目录5、修改配置文件(1)修改hbase-env.sh(2)修改hbase-site.xml(3)修改regionservers6、配置环境变量四、启动HBase集群1、启动zookeeper集群2、启动HBase一、前言1、HBase 依赖...

2019-12-21 14:11:46 1191

原创 【HBase】(二)为什么需要 HBase?

文章目录一、产生背景二、HBase 概述三、关系型数据库 和 非关系型数据库的典型代表四、HBase 这个 NoSQL 数据库的要点五、结构化、半结构化和非结构化六、HBase 中的表特点七、HBase表结构逻辑视图一、产生背景自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后, 好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Had...

2019-12-21 00:25:17 1774

原创 【HBase】(一)NoSQL 360度盘点,这些细节值得关注!

文章目录一、前言二、为什么使用NoSQL三、NoSQL和关系型数据库对比四、NoSQL 的特点五、NoSQL基本概念六、NoSQL的三大基石(CAP、BASE和最终一致性)CAPBASE最终一致性七、NoSQL分类八、列存储数据库(Wide Column Store)一、前言在开始HBase的学习之前,我们有必要了解一下NoSQL,为什么要使用NoSQL,NoSQL和关系型数据库的对比,NoS...

2019-12-20 23:27:29 1368

原创 【Hadoop】(七)Yarn 详解

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。

2019-12-17 23:30:17 1783

原创 【Hive】(十三)Hive 下 Apache Zeppelin 集成部署

文章目录一、Zeppelin简介Zeppelin特性Apache Spark 集成数据可视化二、Zeppelin的安装部署使用Beeline连接hive测试下载 Zeppelin修改配置文件启动zeppelin作为大数据研究分析,我越发觉得有必要能有一款快速上手,能够适合单一数据处理、但后端处理语言繁多的场景相关的开源工具。最近我找到了一款Apache Zeppelin,下面是我初步实战初步...

2019-12-17 22:56:46 1186

原创 【Hive】(十二)Hive自定义函数详解(UDF、UDAF、UDTF)

文章目录前言一、自定义函数二、UDF:用户定义(普通)函数,只对单行数值产生作用1.创建一个Maven工程Hive2.导入依赖3.创建一个类4.打成jar包上传到服务器/opt/soft/data/udf.jar5.将jar包添加到hive的classpath6.创建临时函数与开发好的java class关联7.即可在hql中使用自定义的函数三、UDAF:User- Defined Aggrega...

2019-12-17 22:42:11 1517

原创 【Hive】笔试题 01(自连接与窗口函数分别实现)

第一题现有这么一批数据,现要求出: 每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数 三个字段的意思: 用户名,月份,访问次数 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-01,25 A,2015-01,5 A,2015-02,4 A,2015-02,6 ...

2019-12-17 19:47:55 1924 2

原创 【Hive】(十一)Hive 内置函数集合

1、内置函数2、数学函数round(四舍五入):hive> select round(45.3456,2),round(6.56787,-1);+------------------+-------------------+| round(45.3456,2) | round(6.56787,-1) |+------------------+------------------...

2019-12-17 00:28:35 1749 1

原创 【Hive】(十)Hive 行转列、列转行详解

文章目录一、行转列1.相关函数说明2.数据准备3.需求4.创建本地constellation.txt,导入数据5.创建hive表并导入数据6.按需求查询数据二、列转行1.函数说明2.数据准备3.需求4.创建本地movie.txt,导入数据5.创建hive表并导入数据6.按需求查询数据一、行转列1.相关函数说明CONCAT(string A/col, string B/col…):返回输入字...

2019-12-17 00:04:53 2760 1

原创 【Hive】(九)Hive 窗口函数总结

文章目录一、简介二、概念三、数据准备四、聚合函数+over()五、partition by 子句六、order by 子句七、window 子句八、窗口函数中的序列函数NTILErow_numberrankdense_rankLAG和LEAD函数一、简介本文主要介绍Hive中的窗口函数,Hive中的窗口函数和SQL中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析(在线分...

2019-12-16 21:25:22 1931

原创 【Hive】(八)Hive 的分区和分桶详解

文章目录一、数据准备二、分区三、分桶一、数据准备hive> create database if not exists myhive;hive> use myhive;hive> drop table if exists student;hive> create table student( > stuid int,stuname string,st...

2019-12-15 16:05:46 1473

原创 【MySQL】(十二)MySQL函数大全及用法示例

一、字符串函数1、ascii(str):返回字符串str的第一个字符的ascii值(str是空串时返回0)mysql> select ascii('2');   -> 50 mysql> select ascii(2);   -> 50 mysql> select ascii('dete');   -> 100 2、ord(str):...

2019-12-15 12:56:04 1511

原创 【Hive】(七)Hive 查询使用详解

文章目录查询语句语法一、基本查询(Select…From)1.1 全表和特定列查询1.2 列别名1.3 算术运算符1.4 常用函数1.5 Limit语句二、Where语句2.1 比较运算符(Between/In/ Is Null)2.2 Like和RLike2.3 逻辑运算符(And/Or/Not)三、分组3.1 Group By语句3.2 Having语句四、Join语句4.1 等值Join4....

2019-12-14 14:00:13 1837 2

原创 【Hive】(六)Hive DML 数据操纵语言详解

文章目录一、数据导入1.1 向表中装载数据(Load)1.2 通过查询语句向表中插入数据(Insert)1.3 查询语句中创建表并加载数据(As Select)1.4 创建表时通过Location指定加载数据路径1.5 Import数据到指定Hive表中二、数据导出2.1 Insert导出2.2 Hadoop命令导出到本地2.3 Hive Shell 命令导出2.4 Export导出到HDFS上三、清除表中数据(Truncate)

2019-12-14 11:52:38 1370

原创 【Hive】(五)Hive 中动态分区与静态分区详解

文章目录一、静态分区二、动态分区Hive中的分区有两种:动态分区和静态分区一、静态分区静态分区1、创建分区表hive> create table stu2( > id int, > name string, > likes array<string>, > adress map<string,string&g...

2019-12-12 23:22:25 1950

原创 【Hadoop】(六)详解 HDFS 的数据流 (面试重点)

前言:在《Hadoop系列》的第一篇博文里,就已经提到了【hadoop】(一)分布式文件系统 HDFS,但作为面试中经常遇到的数据流的问题,特地拎出来专门写一篇文章,详细解读 HDFS 数据流的知识点,帮助小伙伴们跳出面试中的那些大坑。

2019-12-12 19:47:51 1760

原创 【Hadoop】(五)MapReduce 如何解决数据倾斜问题

文章目录一、什么是数据倾斜以及数据倾斜是怎么产生的?二、为什么说数据倾斜与业务逻辑和数据量有关?一、什么是数据倾斜以及数据倾斜是怎么产生的?简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。举个 word count 的入门例子,它的map 阶段就是形成 (“aaa”,1)的形式,然后在reduce 阶段进行 value 相加,得出 “aaa” 出现...

2019-12-12 18:52:03 1698

原创 【Hive】(四)Hive DDL 数据定义语言详解

文章目录1、创建数据库2、查询数据库2.1 显示数据库2.2 查看数据库详情2.3 切换当前数据库3、修改数据库4、删除数据库5、创建表5.1 内部表5.2 外部表5.3 管理表与外部表的互相转换6、分区表6.1 分区表基本操作6.2 分区表注意事项7、修改表7.1 重命名表7.2 增加、修改和删除表分区7.3 增加/修改/替换列信息8、删除表1、创建数据库1)创建一个数据库,数据库在HDFS...

2019-12-11 23:49:10 1451

原创 【Hive】(三)Hive 数据类型

Hive有三种复杂数据类型**ARRAY、MAP 和 STRUCT**。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与C语言中的Struct类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。

2019-12-11 22:23:32 1413

原创 【Hive】(二)Hive 安装部署

文章目录1、前置安装 hadoop2、安装mysql数据库3、安装hive4、mysql驱动包5、重新启动系统1、前置安装 hadoop参考:Hadoop 分布式安装2、安装mysql数据库参考:手把手教你在Linux环境下安装JDK 1.8.0/Tomcat / MySQL(含字符编码集设置)亲测完美!3、安装hive(1)把apache-hive-1.2.1-bin.tar.gz上...

2019-12-11 19:28:45 1285

原创 【Hive】(一)Hive 入门

文章目录1 什么是Hive2 Hive的优缺点2.1 优点2.2 缺点3 Hive架构原理4 Hive和数据库比较4.1 查询语言4.2 数据存储位置4.3 数据更新4.4 索引4.5 执行4.6 执行延迟4.7 可扩展性4.8 数据规模1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映...

2019-12-11 17:40:29 1392

原创 【Hadoop】(四)Hadoop 序列化 及 MapReduce 序列化案例实操

文章目录1 序列化概述2 自定义bean对象实现序列化接口(Writable)3 序列化案例实操1 序列化概述2 自定义bean对象实现序列化接口(Writable)在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。(1)必须实现Writable接口(2)反序列化...

2019-12-11 10:47:41 1587

原创 【Hadoop】(三)资源管理器 YARN 和分布式计算框架 MapReduce

Hadoop MapReduce / MR 是一个软件计算框架,可以轻松地编写应用程序,以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多达TB数据集) 。

2019-12-10 18:34:19 2298

阿里云云计算ACP.xmind

阿里云云计算ACP认证学习思维导图,个人整理的,分享给大家。阿里云云计算专业认证考试(Alibaba Cloud Certified Professional,ACP)是面向使用阿里云云计算产品的架构、开发、运维人员的专业技术认证。

2020-05-27

阿里云大数据ACP.xmind

阿里云大数据ACP认证考试思维导图,本人学习考证过程中亲自整理的,耗时一周,都是精华所在,阿里云大数据ACP考试认证应该会有帮助。

2020-05-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除