chj1621802913-CSDN博客

原创数据倾斜知识点

1、什么是数据倾斜数据倾斜就是大量数据分布不均衡，数量过多的那个值会导致处理该值的节点疲惫处理然后GG。2、比较容易发生数据倾斜的情况A、小表与大表进行join关联的时候B、对数据进行group by，没有和聚合函数搭配使用的时候C、null值过多的时候3、产生数据倾斜的原因A：键值过多分布不均衡　　B：业务数据本身的特性　　C：建表考虑不周全　　D：某些 HQL 语句本身就存在数据倾斜4、业务场景（1）空值产生的数据倾斜场景说明在日志中，常会有信息丢失的问题，比如日志中的 us

2021-03-02 10:32:20 467

原创用java去连接mysql、hive、hbase

用java去连接mysql、hive、hbase，首先先创建一个maven工程，在main里面创建一个resource目录，并将其设置为Resources模式。把下面的log4j.properties文档放入到resource目录下 log4j.rootLogger=INFO, stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.Pat.

2021-01-12 00:18:54 214

原创用spark去连接mysql、hive、hbase

一、spark连mysql1、先添加依赖mysqlmysql-connector-java5.1.322、代码如下：import java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, SparkSession}object ConnectMysql {def main(args: Array[String]): Unit = {val spark

2021-01-11 23:45:35 186

原创 scala的几道小测试题目

1.Java和Scala区别？①　Scala是纯粹的面向对象，Java因为支持基本类型和static而不纯粹②　Scala没有借口，以trait代替③　Scala支持多范式，Java只支持OOP④　Scala支持伴生对象+伴生类实现动静分离⑤　Scala支持样例类，Java没有此概念⑥　Scala支持隐式函数，隐式类，隐式参数⑦　Scala支持高阶函数和柯里化⑧　Scala支持动态混入⑨　Scala支持模式匹配⑩　Scala支持元组、偏函数⑪　构造器、方法返回值···········

2021-01-10 22:57:15 175

原创 hive的优化方式

一、常见的Hive的优化方式有哪些开启执行计划➢explain select …Fetch模式➢默认是开启的，开启后在全局查找、字段查找、limit查找等都不走MapReduce本地模式➢数据量小的时候通过本地模式在单台机器上处理所有的任务//开启本地mrset hive.exec.mode.local.auto=true;//设置 local mr 的最大输入数据量，当输入数据量小于这个值时采用 local mr 的方式//默认为 134217728，即 128Mset hive.e

2021-01-10 22:54:30 136

原创 scala的130个算子

一、元素操作1、+:定义：def +:(elem: A): Array[A]描述：在数组前面添加一个元素，并返回新的数组对象，冒号的方向指向数组示例：var a1=Array.range(1,5)a1.foreach(x=>print(x+"\t"))println()(12 +: a1).foreach(x=>print(x+"\t"))1234在这里插入图片描述2、:+定义：def :+(elem: A): Array[A]描述：在数组后面添加一个元素，并返

2021-01-10 22:51:57 357

原创 hbase的一些常见的题目

一、HBase是什么？有什么特点？列式存储的数据库特点：使用HDFS存储，并利用其可靠性访问速度快支持随机读写高扩展高并发二、HBase的架构中包含了哪些组件？每个组件有什么作用？Cilent：可以由javaApi HbaseShell充当，向Zookeeper发送请求；维护缓存（数据和HRegion的地址信息），加快访问速度Zookeeper：负责HMaster的选举，保证集群里只有一个HMaster；存储HBase元数据信息；监听HRSHRegionServer：具体执行读写操作的

2021-01-10 22:50:10 262

原创创建自定义函数功能

–变量–局部变量:作用域是方法内declare val data_type default df_value;–全局变量:跨函数访问set @var = 1;– <> and or not–逻辑结构–分支if expr1 then…elseif expr2 then…else…end if;–循环while expr do…end while;–函数设置结束提交符delimiter //创建函数create function FUNC_NAME(pa

2021-01-10 22:49:08 244

原创 shell脚本的一些知识内容

#系统交互#图形界面或命令行(dos/shell/hdfs-dfs)/程序->系统api->系统->硬件#shell#what#是一个环境，提供了对linux（unix）系统的接口#向你接受输入,并根据输入执行程序，并显示程序的输出。#可以运行我们的命令，程序和shell脚本#classification#就行有不同类型的系统一样，shell也有不同版本，每个版本都有自己的一套命令和功能#UNIX shell写于20世纪70年代中期，有斯蒂芬·伯恩。在新泽西AT&

2021-01-10 22:46:17 384

原创 scala的一些入门知识点

#scala字符串插值(拼接)# s 利用之后学习的隐式转换实现var name = “henry”println(s"my name is $name")println(s"1 and 1 eq KaTeX parse error: Expected 'EOF', got '#' at position 48: …>1 and 1 eq 2 #̲ f 简单格式化 var …name%s,age=ageage%d,score=agescore%2.2f,gender=$gender%c"

2021-01-10 22:45:32 120

原创 lunix的一些基本命令

#切换账号#切换至个人账号，直接切换su ACCOUNT#切换至root账号，需要输入密码#查看主机名hostname#设置主机名hostnamectl set-hostname single#网络配置#打开网络配置文件vi /etc/sysconfig/network-scripts/ifcfg-ens33#以替换的方式删除所有的":%s/"//g先将文件中的BOOTPROTO=dhcp改成BOOTPROTO=static在文件中增加几行代码：IPADDR=192.168.1

2021-01-10 22:43:04 324

原创 hive的基本详细内容

#HIVE操作#建表#数据类型#数据类型 java mysql hive#字符串 String char(n)/varchar(n)/text/… string/char(255)/varchar(65536)#字符串 char#整数 byte/short/int/long smallint/int(n)/bigint(n) smallint/int/bigint#小数 float/double/BigDecial float/double/money

2021-01-10 22:39:47 185

原创 hive相关的测试题

《Hive》小节测评（共8道题，100分）Hive的内部表和外部表的区别是什么？（10分）内部表由hive主控，外部表由hdfs主控。如果删除内部表的话，其表结构和实际数据都会删除，如果删除外部表的话，只会删除他的表结构元数据，实际数据仍在。Hive分区表的作用？静态分区和动态分区的区别是什么？（10分）把数据分段存放，一段数据存一个文件夹。分区表在hdfs上是文件夹的形式。区别：动态分区需要设置两个属性：开启动态分区，set hive.dynamic.partition=true;设置

2021-01-10 22:37:09 996

原创 mapreduce的基本工作原理和流程

（1）Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。（2）Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value。（3）Collect收集阶段：在用户编写map()函数中，当数据处理完成后，一般会调用OutputCollector.collect()输出结果。在该函数内部，它会将生成的key/value分区（调用Partitioner），并写入一个环形内存缓冲

2020-11-15 23:15:59 706

chj1621802913的博客

原创数据倾斜知识点

原创用java去连接mysql、hive、hbase

原创用spark去连接mysql、hive、hbase

原创 scala的几道小测试题目

原创 hive的优化方式

原创 scala的130个算子

原创 hbase的一些常见的题目

原创创建自定义函数功能

原创 shell脚本的一些知识内容

原创 scala的一些入门知识点

原创 lunix的一些基本命令

原创 hive的基本详细内容

原创 hive相关的测试题

原创 mapreduce的基本工作原理和流程

原创 hadoop的标准配置

原创我学完OOP之后对OOP的理解

原创对java基础的一个清晰认知

原创 Java扩展题

原创学完Java后自己编写的题

原创我学习之后对css的理解

原创我所学的前端知识

空空如也

空空如也