自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

QiSorry

正在努力学习大数据的萌新

  • 博客(24)
  • 收藏
  • 关注

原创 Hadoop完全分布式搭建

文章目录前言一、虚拟机准备1. 可以正常上网2. ip为静态ip3. 安装必要的环境4. 关闭防火墙以及防火墙开机自启动5. 修改主机名及添加映射6. 创建用户7. 克隆另外两台虚拟机:hadoop102 hadoop103克隆 hadoop102更改 hadoop102 相关信息测试三台虚拟机是否可以相互通信二、Hadoop安装及相关配置1.引入库2.读入数据总结前言必备条件:电脑内存最好8G以上虚拟机ip为静态ip且可以 ping 通外网提示:若满足以上条件,下面案例可供参考一、虚.

2021-03-02 08:59:51 6594 12

原创 Hive行转列、列转行实现

Hive函数条件判断函数nvl(value,default_value) - 如果value为null,返回default_value ;如果value不为null,返回valuehive (ddl_create)> select nvl(null, 2);2Time taken: 0.343 seconds, Fetched: 1 row(s)hive (ddl_create)> select nvl(1, 2);1Time taken: 0.505 seconds, F

2021-01-22 15:39:39 8659 3

原创 大数据场景下的AB-Test

想要了解 AB Test?不知道从哪里入手?Come on,I’am here!

2022-08-14 23:24:35 1384

原创 干掉leetcode买卖股票系列问题,这篇文章足够了!!

文章目录前言01 动态规划解决该类问题的通用思路02 leetcode121(买卖一次)02 leetcode122(买卖多次)02 leetcode 714(买卖多次且含手续费)02 leetcode123(买卖两次)02 leetcode188(买卖k次)02 leetcode309(买卖多次且含冻结期)总结前言之前就做过leetcode的买卖股票系列的题,被他们折磨的够呛,今天决定写一篇自己关于买卖股票系列问题的理解,用动态规划的基本思路带你逐层理解并解决这类问题,争取干掉买卖股票问题。0

2021-08-02 21:56:50 472

原创 一文带你理解并掌握Hive窗口函数

文章目录一、窗口函数是什么?二、over(窗口的范围)的理解2.1 窗口的范围2.2 窗口函数使用示例2.2.1 查询在 2017 年 4 月份购买过的顾客及总人数2.2.2 查询顾客的购买明细及顾客的月购买总额2.2.3 将每个顾客的 cost 按照日期进行累加2.2.4 查询每个顾客上次的购买时间2.2.5 根据时间先后将购买明细分为5组2.3 经典案例求分组TopN总结一、窗口函数是什么?个人理解窗口函数的格式是:聚合函数(如sum/count/…) / rank() / lag() / l.

2021-07-09 21:55:19 560 2

原创 解决spark-sql中Class com.hadoop.compression.lzo.LzoCodec not found

将 hadoop-lzo-0.4.20.jar 拷贝到 spark家目录下的jars目录后可以解决此问题[bigdata@worker-13 common]$ pwd/opt/app/hadoop-3.1.3/share/hadoop/common[bigdata@worker-13 common]$ cp hadoop-lzo-0.4.20.jar /opt/app/spark-3.0.0-bin-hadoop3.2/jars/...

2021-07-02 15:33:06 664

原创 《HBase原理与实践》LSM树读书笔记

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、简介二、KeyValue 存储格式LSM的数据写入操作LSM的数据查询操作总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、简介在大数据场景下,HBase的存储引擎选择的是LSM树(日志结构合并树Log-Structured Merge-Tre

2021-04-12 09:44:48 302

原创 反射与注解的基本使用

文章目录一、反射对于反射的理解获取Class实例的三种方式调用Class静态方法:forName(String classPath)通过运行时类的对象调用getClass()调用运行时类的属性 .class反射之Constructor获取构造器创建运行时类对象反射之Field反射之Method获取运行时类的方法唤醒方法:invoke()反射之类型擦除私有变量/私有方法能否被外界访问?二、注解对于注解的理解定义注解获取注解总结一、反射对于反射的理解JAVA反射机制是在运行状态中,对于任意一个类,都能够

2021-04-02 13:42:52 218

原创 Sqoop导入导出模板

从mysql导入hdfs/opt/module/sqoop/bin/sqoop import \--\connect jdbc:mysql://worker-13:3306/$APP \--username root \--password 123456 \--target-dir /origin_data/$APP/db/$1/$do_date \--delete-target-dir \--query "$2 and \$CONDITIONS" \--num-mappers 1 \-

2021-03-26 22:16:35 225

原创 Azkaban从安装到使用小计

1 安装1.1 上传并解压tar包[bigdata@worker-13 software]$ ll-rw-rw-r--. 1 bigdata bigdata 6433 3月 13 09:51 azkaban-db-3.84.4.tar.gz-rw-rw-r--. 1 bigdata bigdata 16175002 3月 13 09:51 azkaban-exec-server-3.84.4.tar.gz-rw-rw-r--. 1 bigdata bigdata 20239974

2021-03-26 14:03:43 197

原创 Yarn的Tool接口实现MR程序走指定的队列

文章目录前言一、创建 Maven 项目,添加依赖二、创建 WordCount 类实现 Tool 接口三、创建 WordCountDriver 类四、打包上传到集群测试前言有时我们自己编写的MR程序需要传入一些参数比如指定任务提交到哪个队列,这时就需要实现Tool接口一、创建 Maven 项目,添加依赖<dependencies> <dependency> <groupId>org.apache.hadoop</groupId&g.

2021-03-15 17:29:23 629

原创 电商数仓DWD层用户行为日志解析

文章目录前言一、页面埋点日志、启动日志结构二、日志解析的流程2.1 启动日志表解析(包括注意事项)2.1.1 解析思路2.1.2 建表语句2.1.3 数据导入2.1.4 注意事项2.2 页面日志表解析2.2.1 解析思路2.3 启动日志表解析2.3.1 解析思路2.3.2 建表语句2.3.3 自定义 UDTF 函数2.3.4 数据导入2.4 曝光日志表解析2.4.1 解析思路2.5 错误日志表解析2.5.1 解析思路DWD层用户行为数据加载脚本总结前言学习尚硅谷电商数仓项目笔记,以下是自己记录的DW.

2021-03-11 16:08:03 914

原创 Hive自定义UDTF函数

导入必要的 Hive 依赖<dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</version> </dependency>

2021-03-11 10:53:36 618

原创 增加容量调度器队列

修改 capacity-scheduler.xml[bigdata@worker-13 ~]$ vim $HADOOP_HOME/etc/hadoop/capacity-scheduler.xml增加一个名为 hive 的队列,并添加相应的配置 <property> <name>yarn.scheduler.capacity.root.queues</name> <value>default,hive</value>

2021-03-04 14:53:21 252 1

原创 Linux 完全卸载 MySQL

文章目录前言一、卸载系统自带的 MySQL-libs二、删除遗留的 MySQL 文件1.查看遗留 MySQL 文件2.删除相关文件总结前言最近在 Centos7 系统重新安装了一遍 MySQL,安装完成后发现初始化的密码没有生成,应该是没有将原来的 MySQL 文件卸载干净导致。提示:以下是本篇文章正文内容,下面案例可供参考一、卸载系统自带的 MySQL-libsrpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --no

2021-02-26 09:51:37 390

原创 LZO创建索引支持切片操作

查看测试文件大小[bigdata@worker-13 data]$ ll -h总用量 215M-rw-rw-r--. 1 bigdata bigdata 215M 12月 13 18:54 bigtable.lzo将测试文件上传到hdfs[bigdata@worker-13 data]$ hadoop fs -put bigtable.lzo /input为测试文件创建索引[bigdata@worker-13 data]$ hadoop jar /opt/module/hadoop-3.1

2021-02-24 14:50:15 524

转载 MapJoin原理

MapJoin流程图使用场景MapJoin通常用于一个很小的表和一个大表进行join的场景,具体小表有多小,由参数hive.mapjoin.smalltable.filesize来决定,该参数表示小表的总大小,默认值为25000000字节,即25M。Hive0.7之前,需要使用hint提示 /*+ mapjoin(table) */才会执行MapJoin,否则执行Common Join,但在0.7版本之后,默认自动会转换Map Join,由参数hive.auto.convert.join来控制,默认

2021-01-22 20:51:10 1618

原创 Hive窗口函数

Hive窗口函数一般格式为:function + over(范围)个人理解开窗函数就是对每一行开一个窗口,窗口的范围可以自己指定,然后在这个窗口范围中进行一些统计over()指定分析函数工作的窗口大小,这个窗口大小可能随着行的变化而改变over()中可以指定窗口的范围current row:当前行n preceding:往前n行数据n following:往后n行数据unbounded:起点unbounded preceding:从前面的起点unbounded following:从

2021-01-22 18:15:35 208

原创 Hive中join语法总结

HQL中7种join的实现只包含A表中的数据select 查询内容 from A left join B on A.key = B.key只包含B表中的数据select 查询内容 from A right join A on B.key = A.keyselect 查询内容 from B left join A on B.key = A.keyA表与B表都有的数据select 查询内容 from A join B on A.key = B.key包含A但不含B的数据selec

2021-01-22 15:16:43 330

原创 Hive调优小记

Hive调优Fetch抓取Fetch抓取是指能不走MapReduce任务就不走MapReduce任务eg:select * from A,在这种情况下,Hive可以直接读取A表的存储目录下的文件参数设置 hive (qi)> set hive.fetch.task.conversion=more;join优化小表 join 大表即数据量小的表放在 join 的左边,大表放在join的右边。这样可以 map join可以让小表先进内存,大表的数据从文件读取。(Hive已实现

2021-01-22 14:19:06 181

原创 Sqoop入门小记

Sqoop入门基本介绍官网:http://sqoop.apache.org/介绍:用于在hadoop和结构化数据存储(如关系数据库MySQL)之间高效地传输批量数据的工具,可以将关系型数据库(MySQL)中的数据导入到HDFS/Hive/HBse等等中,也可以将HDFS/Hive等等中的数据导入到关系型数据库中RDBMS(如MySQL中的数据) ==> Hadoop(HDFS/Hive/HBase…)Hadoop(HDFS/Hive/HBase…) ==> RDBMS(如MySQL

2020-12-17 21:18:56 185

原创 Hive常用的字符串相关函数

Hive常用的字符串相关函数lower(str) - 将字符串的字母全部转换为小写SELECT lower(‘Facebook’);‘facebook’upper(str) - 将字符串的字母全部转换为大写length(str) - 返回字符串的长度hive (default)> SELECT length(‘Facebook1’);9trim(str) - 去除字符串两端的空字符串hive (default)> select trim(’ face

2020-12-16 13:19:25 714

原创 Hive常用的时间相关函数

Hive常用的时间相关函数查看Hive的内置函数通过show functions可以查看Hive所有的内置函数通过desc function extended 函数名可以查看函数的具体用法hive (default)> show functions;OKtab_namearray_containsasciiasinassert_trueatanavgbase64betweenbin.....# 查看upper函数的具体用法hive (default)> de

2020-12-16 10:46:00 374 2

原创 Hive分区表

Hive分区表Hive分区表分区表的创建分区表数据的查看分区数据的导入从HDFS导入数据到Hive中通过insert into table ... select 方式导入多级分区动态分区结语Hive分区表分区表的创建create table dept_partition(deptno int,dname string,loc string)PARTITIONED BY (day string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

2020-12-15 22:28:23 191

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除