梵圣-CSDN博客

原创 Hive 案例

1、需求描述和数据说明针对销售数据，完成统计：按年统计销售额销售金额在 10W 以上的订单每年销售额的差值年度订单金额前10位（年度、订单号、订单金额、排名）季度订单金额前10位（年度、季度、订单id、订单金额、排名）求所有交易日中订单金额最高的前10位每年度销售额最大的交易日年度最畅销的商品(即每年销售金额最大的商品)数据如下2、建表并导入数据vim createtable.hql-- createtable.hqldrop database sale cascad

2021-10-16 17:05:29 959

原创 Hive 之元数据管理

1、Metastore在Hive的具体使用中，首先面临的问题便是如何定义表结构信息，跟结构化的数据映射成功。所谓的映射指的是一种对应关系。在Hive中需要描述清楚表跟文件之间的映射关系、列和字段之间的关系等等信息。这些描述映射关系的数据的称之为Hive的元数据。该数据十分重要，因为只有通过查询它才可以确定用户编写sql和最终操作文件之间的关系。Metadata即元数据。元数据包含用Hive创建的database、table、表的字段等元信息。元数据存储在关系型数据库中。如hive内置的Derby、第三方

2021-10-16 14:43:17 1068

原创 Hive之文件格式

Hive支持的存储数的格式主要有：TEXTFILE（默认格式）、SEQUENCEFILE、RCFILE、ORCFILE、PARQUET。textfile为默认格式，建表时没有指定文件格式，则使用TEXTFILE，导入数据时会直接把数据文件拷贝到hdfs上不进行处理；sequencefile，rcfile，orcfile格式的表不能直接从本地文件导入数据，数据要先导入到textfile格式的表中，然后再从表中用insert导入sequencefile、rcfile、orcfile表中。行存储与列

2021-10-10 23:36:52 1260

原创 Hive 之自定义函数

当 Hive 提供的内置函数无法满足实际的业务处理需要时，可以考虑使用用户自定义函数进行扩展。用户自定义函数分为以下三类：UDF（User Defined Function）。用户自定义函数，一进一出UDAF（User Defined Aggregation Function）。用户自定义聚集函数，多进一出；类似于：count/max/minUDTF（User Defined Table-Generating Functions）。用户自定义表生成函数，一进多出；类似于：explodeUDF开发

2021-10-10 19:10:01 357

原创 Hive 之窗口函数

目录1、窗口基本用法1.1 over 关键字1.2 partition by子句1.3 order by 子句2、Window子句3、排名函数4、序列函数5、GROUPING SETS、GROUPING__ID、CUBE和ROLLUP窗口函数又名开窗函数，属于分析函数的一种。用于解决复杂报表统计需求的功能强大的函数，很多场景都需要用到。窗口函数用于计算基于组的某种聚合值，它和聚合函数的不同之处是：对于每个组返回多行，而聚合函数对于每个组只返回一行。1、窗口基本用法1.1 over 关键字使用窗口

2021-10-10 17:23:42 586

原创 Hive 之函数

查看系统函数-- 查看系统自带函数show functions;-- 显示自带函数的用法desc function upper;desc function extended upper;日期函数-- 当前前日期 current_date带不带小括号都行select current_date, unix_timestamp();+-------------+-------------+| _c0 | _c1 |+-------------+-----

2021-10-09 22:51:57 90

原创 Hiv之DQL

1、select语法：SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][ORDER BY col_list][CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BYcol_list]][LIMIT [offset,] rows]创建表，加载数据-- 测

2021-10-05 13:23:20 174

原创 Hive 之数据导入导出

1、导入loadLOAD DATA [LOCAL] INPATH 'filepath'[OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)]LOCAL：表示从本地导入，否则从HDFS上导入INPATH：加载数据的路径OVERWRITE：覆盖表中已有数据；否则表示追加数据PARTITION：将数据加载到指定的分区2、插入数据-- 创建分区表CREATE TABLE tabC (id

2021-10-03 13:29:52 118

原创 Hive 之 DDL

DDL（data definition language）：主要的命令有CREATE、ALTER、DROP等。DDL主要是用在定义、修改数据库对象的结构或数据类型。1、Database

2021-10-02 21:55:22 413

原创 Hive数据类型

1、数据类型1.1 基本数据类型1.2 数据类型转换hive (default)> > > select '1.0' + 2;OK_c03.0Time taken: 20.331 seconds, Fetched: 1 row(s)hive (default)>hive (default)> > SELECT '1111' > 10;OK_c0

2021-09-26 23:26:52 307

原创 Hive 安装

1、安装Mysql使用Mysql 存储Hive 的元信息，不使用mariadb1、先卸载mariadbrpm -qa | grep mariadbrpm -e --nodeps 文件名2、下载mysql 安装包这里是离线安装，先下载Mysql .gz.tar 包。下载地址：https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.31-linux-glibc2.12-x86_64.tar.gz3、开始安装在开始安装之前，为了安全，一般

2021-09-25 20:59:04 132

原创 MR之join

1、reduce joinbeanpackage reduce_join;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class DeliverBean implements Writable { private String userId; private String po

2021-09-21 14:44:16 176

原创 MR之排序

1、MR 中的排序MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑.上是否需要。默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。MapTask它会将处理的结果暂时放到环形缓冲区中，当环形缓冲区使用率达到一定阈值后，再对缓冲区中的数据进行一次快速排序，并将这些有序数据溢写到磁盘上，溢写完毕后，它会对磁盘上所有文件进行归并排序。ReduceTask 当所有数据拷贝完毕后，ReduceTask统-对内存

2021-09-20 18:48:59 1213

ly13607255628的博客

原创 Hive 案例

原创 Hive 之元数据管理

原创 Hive之文件格式

原创 Hive 之自定义函数

原创 Hive 之窗口函数

原创 Hive 之函数

原创 Hiv之DQL

原创 Hive 之数据导入导出

原创 Hive 之 DDL

原创 Hive数据类型

原创 Hive 安装

原创 MR之join

原创 MR之排序

原创 MR 之shuffle

原创 Hadoop 序列化

原创 Hadoop 元数据管理

原创 MR 之WordCount 例子

原创 HDFS 读写流程

原创 HDFS 常用shell 命令和 java api 操作文件上传下载删除

原创 Hadoop集群搭建

空空如也

空空如也