QiSorry-CSDN博客

原创 Hadoop完全分布式搭建

文章目录前言一、虚拟机准备1. 可以正常上网2. ip为静态ip3. 安装必要的环境4. 关闭防火墙以及防火墙开机自启动5. 修改主机名及添加映射6. 创建用户7. 克隆另外两台虚拟机：hadoop102 hadoop103克隆 hadoop102更改 hadoop102 相关信息测试三台虚拟机是否可以相互通信二、Hadoop安装及相关配置1.引入库2.读入数据总结前言必备条件：电脑内存最好8G以上虚拟机ip为静态ip且可以 ping 通外网提示：若满足以上条件，下面案例可供参考一、虚.

2021-03-02 08:59:51 8467 12

原创 Hive行转列、列转行实现

Hive函数条件判断函数nvl(value,default_value) - 如果value为null，返回default_value ；如果value不为null，返回valuehive (ddl_create)> select nvl(null, 2);2Time taken: 0.343 seconds, Fetched: 1 row(s)hive (ddl_create)> select nvl(1, 2);1Time taken: 0.505 seconds, F

2021-01-22 15:39:39 8687 3

原创大数据场景下的AB-Test

想要了解 AB Test？不知道从哪里入手？Come on，I’am here！

2022-08-14 23:24:35 1436

原创干掉leetcode买卖股票系列问题，这篇文章足够了！！

文章目录前言01 动态规划解决该类问题的通用思路02 leetcode121(买卖一次)02 leetcode122(买卖多次)02 leetcode 714(买卖多次且含手续费)02 leetcode123(买卖两次)02 leetcode188(买卖k次)02 leetcode309(买卖多次且含冻结期)总结前言之前就做过leetcode的买卖股票系列的题，被他们折磨的够呛，今天决定写一篇自己关于买卖股票系列问题的理解，用动态规划的基本思路带你逐层理解并解决这类问题，争取干掉买卖股票问题。0

2021-08-02 21:56:50 492

原创一文带你理解并掌握Hive窗口函数

文章目录一、窗口函数是什么？二、over(窗口的范围)的理解2.1 窗口的范围2.2 窗口函数使用示例2.2.1 查询在 2017 年 4 月份购买过的顾客及总人数2.2.2 查询顾客的购买明细及顾客的月购买总额2.2.3 将每个顾客的 cost 按照日期进行累加2.2.4 查询每个顾客上次的购买时间2.2.5 根据时间先后将购买明细分为5组2.3 经典案例求分组TopN总结一、窗口函数是什么？个人理解窗口函数的格式是：聚合函数(如sum/count/…) / rank() / lag() / l.

2021-07-09 21:55:19 614 2

原创解决spark-sql中Class com.hadoop.compression.lzo.LzoCodec not found

将 hadoop-lzo-0.4.20.jar 拷贝到 spark家目录下的jars目录后可以解决此问题[bigdata@worker-13 common]$ pwd/opt/app/hadoop-3.1.3/share/hadoop/common[bigdata@worker-13 common]$ cp hadoop-lzo-0.4.20.jar /opt/app/spark-3.0.0-bin-hadoop3.2/jars/...

2021-07-02 15:33:06 704

原创《HBase原理与实践》LSM树读书笔记

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、简介二、KeyValue 存储格式LSM的数据写入操作LSM的数据查询操作总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、简介在大数据场景下，HBase的存储引擎选择的是LSM树（日志结构合并树Log-Structured Merge-Tre

2021-04-12 09:44:48 339

原创反射与注解的基本使用

文章目录一、反射对于反射的理解获取Class实例的三种方式调用Class静态方法：forName(String classPath)通过运行时类的对象调用getClass()调用运行时类的属性 .class反射之Constructor获取构造器创建运行时类对象反射之Field反射之Method获取运行时类的方法唤醒方法：invoke()反射之类型擦除私有变量/私有方法能否被外界访问？二、注解对于注解的理解定义注解获取注解总结一、反射对于反射的理解JAVA反射机制是在运行状态中，对于任意一个类，都能够

2021-04-02 13:42:52 229

原创 Sqoop导入导出模板

从mysql导入hdfs/opt/module/sqoop/bin/sqoop import \--\connect jdbc:mysql://worker-13:3306/$APP \--username root \--password 123456 \--target-dir /origin_data/$APP/db/$1/$do_date \--delete-target-dir \--query "$2 and \$CONDITIONS" \--num-mappers 1 \-

2021-03-26 22:16:35 241

原创 Azkaban从安装到使用小计

1 安装1.1 上传并解压tar包[bigdata@worker-13 software]$ ll-rw-rw-r--. 1 bigdata bigdata 6433 3月 13 09:51 azkaban-db-3.84.4.tar.gz-rw-rw-r--. 1 bigdata bigdata 16175002 3月 13 09:51 azkaban-exec-server-3.84.4.tar.gz-rw-rw-r--. 1 bigdata bigdata 20239974

2021-03-26 14:03:43 217

原创 Yarn的Tool接口实现MR程序走指定的队列

文章目录前言一、创建 Maven 项目，添加依赖二、创建 WordCount 类实现 Tool 接口三、创建 WordCountDriver 类四、打包上传到集群测试前言有时我们自己编写的MR程序需要传入一些参数比如指定任务提交到哪个队列，这时就需要实现Tool接口一、创建 Maven 项目，添加依赖<dependencies> <dependency> <groupId>org.apache.hadoop</groupId&g.

2021-03-15 17:29:23 659

原创电商数仓DWD层用户行为日志解析

文章目录前言一、页面埋点日志、启动日志结构二、日志解析的流程2.1 启动日志表解析（包括注意事项）2.1.1 解析思路2.1.2 建表语句2.1.3 数据导入2.1.4 注意事项2.2 页面日志表解析2.2.1 解析思路2.3 启动日志表解析2.3.1 解析思路2.3.2 建表语句2.3.3 自定义 UDTF 函数2.3.4 数据导入2.4 曝光日志表解析2.4.1 解析思路2.5 错误日志表解析2.5.1 解析思路DWD层用户行为数据加载脚本总结前言学习尚硅谷电商数仓项目笔记，以下是自己记录的DW.

2021-03-11 16:08:03 958

原创 Hive自定义UDTF函数

导入必要的 Hive 依赖<dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</version> </dependency>

2021-03-11 10:53:36 652

原创增加容量调度器队列

修改 capacity-scheduler.xml[bigdata@worker-13 ~]$ vim $HADOOP_HOME/etc/hadoop/capacity-scheduler.xml增加一个名为 hive 的队列，并添加相应的配置 <property> <name>yarn.scheduler.capacity.root.queues</name> <value>default,hive</value>

2021-03-04 14:53:21 273 1

原创 Linux 完全卸载 MySQL

文章目录前言一、卸载系统自带的 MySQL-libs二、删除遗留的 MySQL 文件1.查看遗留 MySQL 文件2.删除相关文件总结前言最近在 Centos7 系统重新安装了一遍 MySQL，安装完成后发现初始化的密码没有生成，应该是没有将原来的 MySQL 文件卸载干净导致。提示：以下是本篇文章正文内容，下面案例可供参考一、卸载系统自带的 MySQL-libsrpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --no

2021-02-26 09:51:37 422

原创 LZO创建索引支持切片操作

查看测试文件大小[bigdata@worker-13 data]$ ll -h总用量 215M-rw-rw-r--. 1 bigdata bigdata 215M 12月 13 18:54 bigtable.lzo将测试文件上传到hdfs[bigdata@worker-13 data]$ hadoop fs -put bigtable.lzo /input为测试文件创建索引[bigdata@worker-13 data]$ hadoop jar /opt/module/hadoop-3.1

2021-02-24 14:50:15 543

转载 MapJoin原理

MapJoin流程图使用场景MapJoin通常用于一个很小的表和一个大表进行join的场景，具体小表有多小，由参数hive.mapjoin.smalltable.filesize来决定，该参数表示小表的总大小，默认值为25000000字节，即25M。Hive0.7之前，需要使用hint提示 /*+ mapjoin(table) */才会执行MapJoin,否则执行Common Join，但在0.7版本之后，默认自动会转换Map Join，由参数hive.auto.convert.join来控制，默认

2021-01-22 20:51:10 1672

QiSorry