2020年12月_怦然心动A

原创 Scala中集合Array的方法

以数组为例测试Scala函数==查找Scala中数组的方法: ==1、可以在电脑的DOS窗口输入：scala2、创建一个数据组：var arr01=Array.range(1,10)3、输入：arr02.4、点击Tab键首先声明四个测试数据：第一个： var arr01 = Array(1,2,3,4,5,6,7,8,9) 等同于： var arr02:Array[Int]=Array(1,2,3,4,5,6,7,8,9) 等同于： var arr03=Array.range(1,

2020-12-25 11:38:49 716

原创 Scala基本介绍

一、定长数组的创建使用创建1.直接初始化一个数组：(创建时直接赋值)var arr01 = Array(1,2,3) 数据类型确定为Int，这种方式创建完成后，数组的数据类型就确定，以后只能存放Int型数据var arr02 = Array(1,2,3,"abc") 这时数组中有多种数据类型，该数组中的数据类型不确定，所以为any类型，以后可以存放任意数据类型2.通过创建数组对象：var arr03 = new Array[Int](4) 创建一个长度为4的Int型数组，此时数组内

2020-12-23 00:23:06 124

原创 Hadoop和Hive

一、什么是动态分区二、为什么使用动态分区从业务层面： ①：当我们在业务中频繁的对某一个字段分区聚合时，就会将该字段作为分区字段来设置分区，当有大量的数据需要存储时，可以一次性的将这些数据导入分区中（与静态分区不一样，静态分区一次只能导入一个分区的数据） ②：在分布式计算框架中减少数据的IO迁移带来的负载，从而提升效率，性能从技术层面：开启动态分区的模式：（静态分区不需要） set hive.exec.dynamic.partition=true

2020-12-21 18:44:47 216

原创 Hbase简介

Hbase简介一、 Hbase概述（一）、 Hbase是一个领先的NoSql数据库（二）、 Hbase特点一、 Hbase概述（一）、 Hbase是一个领先的NoSql数据库① 一个面向列存储的NoSql[^1]数据库据② 一个分布式的Hash Map，底层数是Key-Value格式③ 使用HDFS存储并利用了其可靠性[^1]：NoSql(not only SQL) 非关系型数据库（二）、 Hbase特点①数据访问速度快，响应时间约2-20毫秒②支持随机读写，每个节点20k~100k+op

2020-12-19 23:15:33 121

原创 hive数据倾斜问题以及Hive的优化

数据倾斜产生的原因数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类

2020-12-16 20:00:29 291

原创 Hive函数和查询(持续更新)

一、函数(一)常用函数(二)、窗口函数排序：row_number(): 排序时从1开始自增，相当于是自增列，1，2，3，4，5...rank(): 排序时从1开始，出现相同值时空缺，1，2，2，4，4，6...dense_rank(): 排序时从1开始，出现相同值时不留空缺：1，2，2，3，3，4...cume_dist: 从小于等于当前值的行数/分组内总行数（占比）比如：统计小于等于当前薪水的行数（人数，一行代表一个人），所占总行数（人数）的比例percent_rank

2020-12-14 11:04:06 191

原创虚拟机的常用命令使用方法(持续更新)

具体命令命令作用cd /dir1/dir2/dir3/…加斜杠表示进入根目录dir1下的dir2下的dir3…(绝对路径。从根目录出发)cd dir4/dir5/…不加斜杠表示进入当前目录下的dir4下的dir5…(相对路径，从当前目录出发)cd ./dir4/dir5/…也表示进入当前目录下的dir4下的dir5…...

2020-12-10 00:49:54 1506

原创 Hive介绍以及对数据库和数据表的操作

一、Hive是什么二、Hive的作用三、Hive的优势四、Hive基本操作(一)、数据库(二)、数据表分区表分桶表

2020-12-09 11:22:32 504

原创小白都能看懂的虚拟机安装步骤

**小白都能看懂的虚拟机安装步骤打开地址，下载安装包复制这段内容后打开百度网盘App。链接:https://pan.baidu.com/s/1ODav3RcwFmcpbvmDIHtS9A 提取码:5e76。

2020-12-08 17:09:50 2090 3

原创 VMware克隆一台全新的虚拟机

一、虚拟机克隆① 首先选择一台纯净的虚拟机，右键单击，选择管理——>克隆点击下一步：依次选择以下选项依次选择以下选项给虚拟机重新命名以及安装位置：然后点击完成，出现克隆完成的页面就表示克隆成功。二、虚拟机重新配置① 开启刚刚克隆的虚拟机：② 使用被克隆的虚拟机root账号和密码登录③ 使用hostname命令查看主机名：④ 更改主机名 hostnamectl set-hostname 主机名⑥ 可以再次使用 hostname命令查看是否重命名成功开始配置IP:输

2020-12-08 11:03:42 689

原创分布式协调服务器Zookeeper

一、Zookeeper简介① Zookeeper是一个开源的分布的，为分布式的，为分布式应用提供协调服务的Apache项目。② Zookeeper=文件系统+通知机制1）Zookeeper从设计模式上来看是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册2）一旦数据的状态发生变化，Zookeeper就将负责通知已经在Zookeeper上注册那些观察者做出相应的反应，从而实现集群中类似Master/Slave管理模式。二、 Zookeeper数据结

2020-12-07 13:26:17 182

原创 Sqoop实现数据在关系型数据库与非关系数据库之间的互传

Sqoop简介Sqoop基本命令数据库间的导入导出#Sqoop概述：sqoop是一个分布式计算环境，能够使数据在Hadoop和关系型数据库间进行传输（例如:Mysql,Oracle, MongodDB,DB2）#Sqoop基本命令启动hbase ：hbase shell查看hbase中的表：list...

2020-12-04 09:41:18 583

原创 HDFS,MapReduce,Yarn详细介绍

Hadoop集群概述

2020-12-04 09:40:47 3554 2

m0_49359581的博客