- 博客(21)
- 收藏
- 关注
原创 数据倾斜知识点
1、什么是数据倾斜数据倾斜就是大量数据分布不均衡,数量过多的那个值会导致处理该值的节点疲惫处理然后GG。2、比较容易发生数据倾斜的情况A、小表与大表进行join关联的时候B、对数据进行group by,没有和聚合函数搭配使用的时候C、null值过多的时候3、产生数据倾斜的原因A:键值过多分布不均衡 B:业务数据本身的特性 C:建表考虑不周全 D:某些 HQL 语句本身就存在数据倾斜4、业务场景(1)空值产生的数据倾斜场景说明在日志中,常会有信息丢失的问题,比如日志中的 us
2021-03-02 10:32:20
467
原创 用java去连接mysql、hive、hbase
用java去连接mysql、hive、hbase,首先先创建一个maven工程,在main里面创建一个resource目录,并将其设置为Resources模式。把下面的log4j.properties文档放入到resource目录下 log4j.rootLogger=INFO, stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.Pat.
2021-01-12 00:18:54
214
原创 用spark去连接mysql、hive、hbase
一、spark连mysql1、先添加依赖mysqlmysql-connector-java5.1.322、代码如下:import java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, SparkSession}object ConnectMysql {def main(args: Array[String]): Unit = {val spark
2021-01-11 23:45:35
186
原创 scala的几道小测试题目
1.Java和Scala区别?① Scala是纯粹的面向对象,Java因为支持基本类型和static而不纯粹② Scala没有借口,以trait代替③ Scala支持多范式,Java只支持OOP④ Scala支持伴生对象+伴生类实现动静分离⑤ Scala支持样例类,Java没有此概念⑥ Scala支持隐式函数,隐式类,隐式参数⑦ Scala支持高阶函数和柯里化⑧ Scala支持动态混入⑨ Scala支持模式匹配⑩ Scala支持元组、偏函数⑪ 构造器、方法返回值···········
2021-01-10 22:57:15
175
原创 hive的优化方式
一、常见的Hive的优化方式有哪些开启执行计划➢explain select …Fetch模式➢默认是开启的,开启后在全局查找、字段查找、limit查找等都不走MapReduce本地模式➢数据量小的时候通过本地模式在单台机器上处理所有的任务//开启本地mrset hive.exec.mode.local.auto=true;//设置 local mr 的最大输入数据量,当输入数据量小于这个值时采用 local mr 的方式//默认为 134217728,即 128Mset hive.e
2021-01-10 22:54:30
136
原创 scala的130个算子
一、元素操作1、+:定义:def +:(elem: A): Array[A]描述:在数组前面添加一个元素,并返回新的数组对象,冒号的方向指向数组示例:var a1=Array.range(1,5)a1.foreach(x=>print(x+"\t"))println()(12 +: a1).foreach(x=>print(x+"\t"))1234在这里插入图片描述2、:+定义:def :+(elem: A): Array[A]描述:在数组后面添加一个元素,并返
2021-01-10 22:51:57
357
原创 hbase的一些常见的题目
一、HBase是什么?有什么特点?列式存储的数据库特点:使用HDFS存储,并利用其可靠性访问速度快支持随机读写高扩展高并发二、HBase的架构中包含了哪些组件?每个组件有什么作用?Cilent:可以由javaApi HbaseShell充当,向Zookeeper发送请求;维护缓存(数据和HRegion的地址信息),加快访问速度Zookeeper:负责HMaster的选举,保证集群里只有一个HMaster;存储HBase元数据信息;监听HRSHRegionServer:具体执行读写操作的
2021-01-10 22:50:10
262
原创 创建自定义函数功能
–变量–局部变量:作用域是方法内declare val data_type default df_value;–全局变量:跨函数访问set @var = 1;– <> and or not–逻辑结构–分支if expr1 then…elseif expr2 then…else…end if;–循环while expr do…end while;–函数设置结束提交符delimiter //创建函数create function FUNC_NAME(pa
2021-01-10 22:49:08
244
原创 shell脚本的一些知识内容
#系统交互#图形界面或命令行(dos/shell/hdfs-dfs)/程序->系统api->系统->硬件#shell#what#是一个环境,提供了对linux(unix)系统的接口#向你接受输入,并根据输入执行程序,并显示程序的输出。#可以运行我们的命令,程序和shell脚本#classification#就行有不同类型的系统一样,shell也有不同版本,每个版本都有自己的一套命令和功能#UNIX shell写于20世纪70年代中期,有斯蒂芬·伯恩。在新泽西AT&
2021-01-10 22:46:17
384
原创 scala的一些入门知识点
#scala字符串插值(拼接)# s 利用之后学习的隐式转换实现var name = “henry”println(s"my name is $name")println(s"1 and 1 eq KaTeX parse error: Expected 'EOF', got '#' at position 48: …>1 and 1 eq 2 #̲ f 简单格式化 var …name%s,age=ageage%d,score=agescore%2.2f,gender=$gender%c"
2021-01-10 22:45:32
120
原创 lunix的一些基本命令
#切换账号#切换至个人账号,直接切换su ACCOUNT#切换至root账号,需要输入密码#查看主机名hostname#设置主机名hostnamectl set-hostname single#网络配置#打开网络配置文件vi /etc/sysconfig/network-scripts/ifcfg-ens33#以替换的方式删除所有的":%s/"//g先将文件中的BOOTPROTO=dhcp改成BOOTPROTO=static在文件中增加几行代码:IPADDR=192.168.1
2021-01-10 22:43:04
324
原创 hive的基本详细内容
#HIVE操作#建表#数据类型#数据类型 java mysql hive#字符串 String char(n)/varchar(n)/text/… string/char(255)/varchar(65536)#字符串 char#整数 byte/short/int/long smallint/int(n)/bigint(n) smallint/int/bigint#小数 float/double/BigDecial float/double/money
2021-01-10 22:39:47
185
原创 hive相关的测试题
《Hive》小节测评(共8道题,100分)Hive的内部表和外部表的区别是什么?(10分)内部表由hive主控,外部表由hdfs主控。如果删除内部表的话,其表结构和实际数据都会删除,如果删除外部表的话,只会删除他的表结构元数据,实际数据仍在。Hive分区表的作用?静态分区和动态分区的区别是什么?(10分)把数据分段存放,一段数据存一个文件夹。分区表在hdfs上是文件夹的形式。区别:动态分区需要设置两个属性:开启动态分区,set hive.dynamic.partition=true;设置
2021-01-10 22:37:09
996
原创 mapreduce的基本工作原理和流程
(1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。(2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。(3)Collect收集阶段:在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲
2020-11-15 23:15:59
706
原创 hadoop的标准配置
环境变量 vi/etc/profile : HADOOP_HOME and PATHhadoop 配置hadoop-env.sh : JAVA_HOEMcore-site.xml : hadoop.tmp.dir /dfs.defaultFShdfs-site.xml : dfs.replication /dfs.namenode.首次启动需要格式化 ./bin/hdfs namenode -format启动/关闭 hadoop ./sbin/start|stop-dfs.sh ./s
2020-11-15 22:32:04
107
原创 我学完OOP之后对OOP的理解
//代码注释//单行注释 ////多行注释 /* ///文档注释/*****///基本类型和引用类型//int a=5;int b=a;将变量a的值,拷贝一个副本给变量b,变量a和变量b是互相独立的。//int [] a ={1};int [] b=a;将数组a引用的地址,拷贝一个副本给数组b,数组a和b指向同一个数组。//Student a = new Student();Student b=a;同数组//oop : object oriented programming/
2020-11-15 21:35:23
116
原创 对java基础的一个清晰认知
/* java *///java 是一个平台//JVM(java virtual machine JAVA虚拟机,用软件模拟硬件)//JRE(java runtime environment,java运行时环境)//JDK(java development toolkit,java开发工具包)//目录:bin//jar.exe 打jar包//javac.exe 编译java源程序,然后生成字节码程序//java.exe 执行java字节码程序,启动虚拟机//javadoc.exe 生成文档
2020-11-15 21:31:31
57
原创 Java扩展题
已知a,b,c都是1位整数,求当三位整数abc、cba的和为1333时a、b、c的值int a,b,c;for(a=1;a<=9;a++)for(b=1;b<=9;b++)for(c=1;c<=9;c++)if(a100+b10+c+c100+b10+a==1333)System.out.println(a+"\t"+b+"\t"+c); 有1、2、3、4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少?int a,b,c,count=0;for(a=1;.
2020-10-07 16:07:38
677
原创 学完Java后自己编写的题
1.打印一个平行四边形int i,j,k;for(i=1;i<=6;i++){for(j=1;j<=6-i;j++)System.out.print(" “);for(k=1;k<=6;k++)System.out.print(”* ");System.out.println();}编程计算123+345+567+…+99100101的值int i,sum=0;for(i=1;i<=99;i+=2)sum+=i*(i+1)*(i+2);System.ou
2020-10-07 16:03:45
234
原创 我学习之后对css的理解
CSS作用 & 介绍式样定义 如何显示 HTML内容通常存储在式样表中作用 : 解决内容与表现分离的问题 ( MVC 模型 , model : html , view : css , control : JavaScript )外部式样表可以极大的提高效率 , 例如要修改网页中标题的表现形式 , 如果网页中有100个标题, 如果使用HTML进行修改, 则需要修改100次, 如果使用CSS进行修改, 则只需要修改1次就OK了, 因为内容与表现分离了, 所以可以将表现(式样表)保存起来,
2020-09-20 20:59:03
194
原创 我所学的前端知识
我所学的前端知识欢迎各位帅哥美女来到我的博客!前半部分可能比较枯燥,是我学习前段时课堂上记录的笔记,后半部分我会举个例子让大家比较深刻的去了解,感谢大家在百忙之中阅读我写的文章。前半部分学会了使用html注释标签#html页面的基本结构htmlheadbody#html常用标签行内元素:默认按行显示,没有宽高,也不可以设置宽高,实际宽高由内容决定a标签超链接:<a href=“目标资源地址“ target=“方式”>提示内容url...
2020-09-20 20:06:06
85
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人