总会有天明-CSDN博客

原创 spark-day04-依赖关系-持久化-分区器-数据结构

一：依赖关系1：依赖和血缘关系介绍rdd.todebugstring：打印血缘关系 rdd.dependencies：打印依赖关系2：保存血缘关系3：OneToOne依赖---窄依赖4：shuffle依赖--宽依赖新的RDD的一个分区的数据依赖于旧的RDD多个分区的数据，这个依赖称之为shuffle依赖。5：窄依赖的任务6：宽依赖的任务7：任务分类1：一个main方法里面可能有多...

2022-02-15 21:18:10 2567

原创 spark-day03-核心编程-RDD算子

一：RDD算子RDD算子也称为RDD方法，主要分为两类。转换算子和行动算子。二：RDD转换算子根据数据处理方式的不同将算子整体上分为value类型、双value类型和key-value类型 2.1：map值转换package com.atguigu.bigdata.spark.rdd.operator.transformimport org.apache.spark.{SparkConf, SparkContext}import org.ap...

2022-02-15 13:30:34 1079

原创 spark-day02-核心编程-RDD

一：概念介绍spark是最基本的数据处理模型，最小的计算单元，易于后续的扩展。二：IO基本实现原理字节流：字符流：三：RDD和IO之间的关系RDD数据只有在调用collect方法时，才会执行真正的业务逻辑操作。之前的封装全部都是功能的扩展。RDD是不保存数据的，但是IO可以临时保存一部分数据。四：spark特点RDD通过不同的分区进行分配给不同的Task弹性：存储的弹性：内...

2022-02-08 13:32:52 1015

原创 spark-day01-快速上手

1：spark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2：spark和Hadoop的区别-使用场景Hadoop：一次性数据计算，框架在处理数据的时候，会从存储设备中读取数据，进行逻辑操作，然后将处理的结果重新存储到介质中。spark：spark和Hadoop的根本差异是多个作业之间的数据通信问题：spark多个作业之间数据通信是基于内存，而Hadoop是基于磁盘的3：spark核心模块spark core：spark最基础与最核心的功能...

2022-01-17 21:35:36 1436

原创 Scala-day06-模式匹配-泛型

一：基本语法package chapter07object Test01_PatternMatchBase { def main(args: Array[String]): Unit = { //1.基本定义语法 val x:Int = 2 val y:String = x match { case 1 => "one" case 2 => "two" case 3 => "three" case _ =

2022-01-12 22:15:07 319

原创 Scala-day05-集合

一：集合简介1：Scala的集合有三大类，序列seq、集set、映射Map，所有的集合都扩展自Iterable特质2：对于几乎所有的集合类，Scala都同时提供了可变和不可变的版本。可变集合：scala.collection.mutable 不可变集合：scala.collection.immutable3：Scala不可变集合，就是指该集合对象不可修改，每次修改都会返回一个新对象，而不会对原对象进行修改。类似于Java中的string对象4：可变集合...

2022-01-11 22:44:20 281

原创 Scala-day04-面向对象

一：包（package） 1：命名规则只能包含数字、字母、下划线、小圆点，但不能用数字开头，也不能使用关键字 2：管理风格// 用嵌套风格定义包package com{ import com.atguigu.scala.Inner // 在外层包中定义单例对象 //外层调用内层需要导包 object Outer{ var out:String = "out" println(Inner.in) ...

2022-01-04 22:22:47 374

原创 Scala-day03-函数式编程

一：面向对象编程解决问题，分解对象，行为，属性，然后通过对象的关系以及行为的调用来解决问题对象：用户行为：登录、连接jdbc、读取数据库属性：用户名、密码二：函数式编程解决问题时，将问题分解成一个一个的步骤，将每个步骤进行封装，通过调用这些封装好的步骤，解决问题。 eg：请求，用户名、密码，读取jdbc，读取数据库三：函数基本语法 1：基本语法 ...

2021-12-14 23:04:50 576

原创 Scala-day03-运算符和循环控制

一：算术运算符 1：基本语法对于除号，它的整数除和小数除是有区别的，整数之间做除法，只保留整数部分，而舍弃小数部分。对于一个数取模a%b，和Java一模一样。 2：案例package chapter03object TestArithmetic { def main(args: Array[String]): Unit = { var r1:Int = 10/3 //3 println("r1=" +...

2021-12-11 20:48:50 511 1

原创 Scala-day02-变量和数据类型

一：注释与java一模一样二：变量和常量 var 变量名 [：变量类型] = 初始值 var i:Int = 10 val 常量名 [：常量类型] = 初始值 val j:Int = 201：声明变量时，类型可以省略，编译器自动推导，即类型推导2：类型确定后，就不能修改，说明 Scala 是强数据类型语言3：变量声明时，必须要有初始值4：在声明定义一个变量时，可以使用var或者val来修饰，var修饰的变量...

2021-12-08 20:49:04 363

原创 Scala-day01-伴生对象与helloworld

面向对象编程，但是静态变量school确是由类名调用的初始scalapackage chapter01/* object:关键字，声明一个单例对象（伴生对象） */object HelloWorld { /* main方法，从外部可以直接调用执行的方法 def 方法名称(参数名称:参数类型):方法返回值类型={方法体} */ def main(args: Array[String]): Unit = { println("hello world")

2021-12-06 22:41:15 396

原创 scala问题解决sbt下载过慢的问题

背景：由于需要在idea中引入scala，需要下载sbt文件，但是sbt文件下载太慢，半个小时都没什么动静解决步骤：首先需要在sbt - Download (scala-sbt.org)中下载sbt包，然后进行解压，复制sbt-launch.jar路径然后在idea--settings--sbt中的相关配置最后在add framework support中勾选scala，选中版本，即可快速下载...

2021-12-06 22:11:25 2894

原创 Hbase-day04-与MR和hive对接

一：与MR对接1：官方案例 1.1：读取HBASE数据自己在Hadoop102，103，104三台机器上输入export HADOOP_CLASSPATH=$HADOOOP_CLASSPATH:/opt/module/hbase/lib/*然后在hbase目录下使用如下命令，这个是Hadoop读取hbase中的表数据，表名为student/opt/module/hadoop-3.1.3/bin/yarn jar lib/hbase-server-1.3.1.jar...

2021-11-29 23:27:48 1289

原创 Hbase-day03-API操作

package com.atguigu.test;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;import org.apache.hadoop.yarn.webapp.hamlet.Hamlet;import java..

2021-11-26 23:32:44 116

原创 Hbase-day02-Hbase高级

1：详细架构1：StoreFile保存实际数据的物理文件，StoreFile 以HFile 的形式存储在HDFS 上。每个Store 会有一个或多个StoreFile（HFile），数据在每个StoreFile 中都是有序的。2：MemStore写缓存，由于HFile 中的数据要求是有序的，所以数据是先存储在MemStore 中，排好序后，等到达刷写时机才会刷写到HFile，每次刷写都会形成一个新的HFile。3：WAL由于数...

2021-11-23 22:18:13 1297 2

原创 Hbase-day02-DDL和DML入门

1：基本操作 1：进入Hbase客户端命令行[atguigu@hadoop102 hbase]$ bin/hbase shell 2：查看帮助命令hbase (main):001:0> help 3：查看当前数据库中有哪些表hbase (main):002:0> list2：表的操作 1：创建表hbase (main):002:0> create 'student','info'stud...

2021-11-23 14:27:06 1251

原创 Hbase-day01-遇到的问题

1：hadoop102:16010网址无法访问这个和端口有关系，检查hbase-site.xml里面的端口配置是否和hdfs的端口是否一致<property> <name>hbase.rootdir</name> <value>hdfs://hadoop102:8020/HBase</value></property>2：关于启动bin/start-hbase.sh之后，ha.

2021-11-15 20:24:43 1203

原创 Hbase-day01-简单介绍

1：定义HBase 是一种分布式、可扩展、支持海量数据存储的NoSQL 数据库。非关系型数据库。2：数据模型逻辑上，HBase 的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase 的底层物理存储结构（K-V）来看，HBase 更像是一个multi-dimensional map。1：Name Space：命名空间，类似于关系型数据库的DatabBase 概念，每个命名空间下有多个表。HBase有两个自带的命名空间，分别是hbase ...

2021-11-15 20:15:22 105

原创 Hive-day08-调优

1：EXPLAIN查看执行计划hive (default)> explain extended select * from emp;hive (default)> explain extended select deptno, avg(sal) avg_sal from emp group by deptno;2：FETCH抓取Fetch抓取是指 Hive中对某些情况的查询可以不必使用 MapReduce计算。例如 SELECT * FROM employees;在这种情况下

2021-11-14 14:36:01 1140

原创 Hive-day07-压缩和存储

1：MR支持的压缩编码2：开启Map输出阶段压缩（MR引擎）开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。 1：开启hive中间传输数据压缩功能hive (default)>set hive.exec.compress.intermediate=true; 2：开启mapreduce中map输出压缩功能hive (default)>set mapreduce.map.output.compress=t...

2021-11-13 23:31:42 104

原创 Hive-day07-函数

一：系统内置函数 1：查看系统自带的函数hive> show functions; 2：显示自带的函数的用法hive> desc function upper; 3：详细显示自带的函数的用法hive> desc function extended upper;二：常用内置函数 1：NVLNVL 给值为NULL的数据赋值，它的格式是NVL(value default_value)。它的功能是如...

2021-11-13 22:56:45 503

原创 Hive-day07-分区表和分桶表

分区表实际上就是对应一个HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。 Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。避免全表扫描，指定目录扫描。比如可以以天进行分区。一天一个分区。创建文件，并引入数据dept_ 20200401.logdept_ 20200402.logdept_ 20200403.log10 ACCOUNTING 17

2021-11-13 14:25:48 1117

原创 Hive-day06-DML语句-数据查询（2）

1：内连接（7）只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来hive (default)> select e.empno, e.ename, d.deptno, d.dname from emp e join dept d on e.deptno = d.deptno;2：左外连接（1）join操作符左边表中符合where子句的所有记录将会被返回hive (default)> select e.empno, e.ename, d.deptno f...

2021-11-12 23:22:13 311

原创 Hive-day05-DML语句-数据查询（1）

1：全表查询和指定列查询hive (default)> select * from emp;hive (default)> select empno, ename from emp;不区分大小写， sql可以写一行或者多行，关键字不能缩写也不能分行，各子句一般要分行写2：列别名hive (default)> select ename AS name, deptno dn from emp;可以加as，也可以不加，上面ename的别名是name，deptno的别名

2021-11-11 22:02:19 200

原创 Hive-day04-DML语句-数据导出

1：Insert导出 1.1：将查询的结果导出到本地hive (default)> insert overwrite local directory'/opt/hive/data/export/student'select * from student; 1.2：将查询的结果格式化导出到本地hive(default)>insert overwrite local directory'/opt/hive/data/export/student1...

2021-11-10 22:22:44 441

原创 Hive-day04-DML语句-数据导入（Load、Insert、As、Location、Import）

1：向表中装载数据（LOAD） 1.1：语法hive> load data [local] inpath ' 数据的 path ' overwrite into tablestudent [partition (partcol1=val1,…)];1 load data:表示加载数据2 local:表示从本地加载数据到 hive表否则从 HDFS加载数据到 hive表3 inpath: 表示加载数据的路径4 overwrite: 表...

2021-11-10 21:55:08 494

原创 Hive-day03-DDL语句

1：创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_[LOCATION hdfs_[WITH DBPROPERTIES (property_name=property_value, ...)]; 1.1：创建一个数据库，在hdfs默认存储路径/user/hive/warehouse/*.dbhive (default)> create database db_hive; ...

2021-11-09 22:58:57 956

原创 Hive-day02-数据类型

1：基本数据类型2：集合数据类型3：隐式类型转换规则 1：任何整数类型都可以隐式转换为一个范围更广的类型，TINYINT->INT,INT->BIGINT 2：所有整数类型、float、string都可隐式转换为DOUBLE 3：TINYINT、SMALLINT、INT都可转换为FLOAT 4：BOOLEAN类型不可转换为任何其他的类型4：使用CAST操作转换例如CAST('1' ...

2021-11-08 22:34:31 89

原创 Error: Could not open client transport with JDBC Uri: jdbc:hive2://hadoop102:10000

这个错误是在尝试使用jdbc访问hive的时候出现的问题报错如下解决过程涉及到hive-site.xml和core-site.xml网上普遍的解决方法是：hive-site.xml新增配置core-site.xml新增配置但是自己仍然不行，这时候需要在hive-site.xml里面新增一个如下内容，即可。成功页面...

2021-11-07 22:07:07 3055 1

原创 Hive-day01-hive的简单理解

1：关于hive的一些基本命令以下的那个insert命令，可以查看除hive与mapreduce有关，且1001这个数据的存放路径是hdfs上面的/user/hive/warehouse/test，test为表名。2：在 CRT窗口中开启另一个窗口开启 Hive，出现报错原因在于Hive 默认使用的元数据库为 derby ，开启 Hive 之后就会占用元数据库，且不与其他客户端共享数据所以我们需要将 Hive 的元数据地址改为 MySQL 。...

2021-11-06 14:45:30 1588

原创 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

这个是初始化元数据之后，在hive里面使用show tables等出现的错误，hive客户端启动，但是服务端并没有启动。以下就是解决步骤：在执行./hive --service metastore &的时候如果出现以下错误，应该是hive-site.xml配置文件没有设置好，比如Driver驱动的配置或者URL的配置Driver org.apache.derby.jdbc.EmbeddedDriver claims to not accept jdbcUrl...

2021-11-06 14:21:44 416

原创启动Hive的时候出现all From hadoop102/169.254.142.102 to hadoop102:8020 failed on connection exception: java

这个是因为Hive是依赖于HDFS和MapReduce相关进程的执行的，也就是说需要在启动Hive之前，应该把NameNode等一些节点进程进行开启报错截图：启动之后的节点进程Hive启动成功

2021-11-06 12:38:35 717

原创 Access denied for user ‘root‘@‘hadoop102‘ (using password: YES)

背景：初始化Hive元数据库的时候出现的问题在mysql中使用mysql >grant all privileges on *.* to root@'hadoop102' identified by 'mysql的密码';然后进行刷新mysql >flush privileges;

2021-11-06 12:29:40 673

原创 com.ctc.wstx.exc.WstxParsingException: String ‘--‘ not allowed in comment (missing ‘＞‘?)

这个是因为Hive-site的配置信息没有写好去Hive-site.xml中修改一下就好了

2021-11-06 12:28:05 352

原创 1045-Access denied for user ‘root‘@‘hadoop102‘ (using password:YES)

背景：使用自己电脑上的navicat连接linux上的mysql的时候，出现的这个错误参考文章1:Navicat 连接MySQL出现1045-Access denied for user 'root'@'localhost'已解决_时光有伱，记忆成花~-CSDN博客但是问题并没有能够解决2：Navicat连接Linux服务器的mysql出现连接不上的问题_兮动人-CSDN博客综合起来就可以成功解决该问题...

2021-11-06 12:01:08 544

原创 Hive-day01-简单介绍

一：什么是Hive 1：hive简介 hive：解决海量结构化日志的数据统计工具 hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。 2：本质：将HQL转化为MapReduce程序hive处理的数据存储在HDFS，hive分析数据底层的实现是MapReduce，执行程序运行在Yarn上。二：Hive优缺点 1：优点...

2021-11-03 21:12:07 165

原创 Zookeeper-day04-分布式锁案例

1：什么是分布式锁比如说"进程 1"在使用该资源的时候，会先去获得锁，"进程 1"获得锁以后会对该资源保持独占，这样其他进程就无法访问该资源，"进程1"用完该资源以后就将锁释放掉，让其他进程来获得锁，那么通过这个锁机制，我们就能保证了分布式系统中多个进程能够有序的访问该临界资源。那么我们把这个分布式环境下的这个锁叫作分布式锁。2：案例分析3：代码实现package com.atguigu.case2;import org.apache.zookeeper.*;i...

2021-11-02 22:28:45 108

原创 Zookeeper-day04-服务器动态上下线监听案例

1：需求某分布式系统中，主节点可以有多台，可以动态上下线，任意一台客户端都能实时感知到主节点服务器的上下线。2：需求分析3：案例实操 1：先在集群上创建/servers 节点2：服务器与zookeeper关联起来，创建节点联系package com.atguigu.case1;import org.apache.zookeeper.*;import java.io.IOException;public class...

2021-11-02 21:31:58 148

原创 Zookeeper-day04-客户端向服务端写数据原理

1：客户端访问：写流程之请求直接发送给Leader节点。write是写请求，ack是写完之后的通知，如果超过半数写完，就可以反馈给客户端。这样快速反馈是提高效率。2：客户端访问：写流程之请求发送给follower节点fowwler没有写权限，所以先发送写请求，leader允许写，同时leader也会写，follower写完之后反馈，超过半数，leader由follower反馈给client....

2021-11-02 20:42:44 88

原创 Zookeeper-day03-API代码操作

1：添加pom文件内容<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> <dependency>

2021-11-01 22:43:33 97

空空如也

空空如也