自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(80)
  • 收藏
  • 关注

原创 中级练习[14]:Hive SQL

动销率定义为品类商品中一段时间内有销量的商品占当前已上架总商品数的比例(有销量的商品 / 已上架总商品数)。滞销率定义为品类商品中一段时间内没有销量的商品占当前已上架总商品数的比例(没有销量的商品 / 已上架总商品数)。用户每天签到可以领1金币,并可以累计签到天数,连续签到的第3、7天分别可以额外领2和6金币。假设今天是数据中所有日期的最大值,从用户登录明细表中的用户登录时间给各用户分级,求出各等级用户的人数。根据用户登录明细表(user_login_detail),求出平台同时在线最多的人数。

2024-09-18 19:52:09 455

原创 中级练习[13]:Hive SQL

通过商品信息表(sku_info)、订单信息表(order_info)和订单明细表(order_detail),分析如果有一个用户成功下单两个及两个以上的购买成功的手机订单(购买商品为xiaomi 10,apple 12,小米13),则输出这个用户的id及第一次成功购买手机的日期和第二次成功购买手机的日期,以及购买手机成功的次数。

2024-09-18 19:37:52 446

原创 中级练习[12]:Hive SQL

从商品价格变更明细表(sku_price_modify_detail),得到最近一次价格的涨幅情况,并按照涨幅升序排序。从订单详情表(order_detail)中查询2021年9月27号至2021年10月3号这一周所有商品每天销售情况。从订单明细表(order_detail)中列出每个商品每个年度的购买总额。

2024-09-17 13:52:31 405

原创 中级练习[11]:Hive SQL

分别从登陆明细表(user_login_detail)和配送信息表中用户登录时间和下单时间统计登陆次数和交易次数。从用户登录明细表(user_login_detail)中首次登录算作当天新增,第二天也登录了算作一日留存。从订单详情表(order_detail)中,求出商品连续售卖的时间区间。

2024-09-17 13:47:26 435

原创 中级练习[10]:Hive SQL

从订单详情表中(order_detail)和商品表(sku_info)中查询各个品类销售数量前三的商品。如果该品类小于三个商品,则输出所有的商品销量。从商品表(sku_info)中求出每个品类的价格中位数。如果是偶数则输出中间两个值的平均值,如果是奇数,则输出中间数即可。从订单详情表(order_detail)中找出销售额连续3天超过100的商品。

2024-09-16 12:22:52 526

原创 中级练习[9]:Hive SQL

假设1号商品销售总额大于21000,2号商品销售总额大于10000,其余商品没有要求。请写出SQL从订单详情表中(order_detail)查询连续两个月销售总额大于等于任务总额的商品。从订单详情表中(order_detail)对销售件数对商品进行分类,0-5000为冷门商品,5001-19999为一般商品,20000及以上为热门商品,并求出不同类别商品的数量。从登录明细表(user_login_detail)中查询在相同时刻,多地登录(ip_address不同)的用户。

2024-09-16 12:16:09 506

原创 中级练习[8]:Hive SQL

从登录明细表(user_login_detail)中查询每个用户两个登录日期(以login_ts为准)之间的最大的空档期。统计最大空档期时,用户最后一次登录至今的空档也要考虑在内,假设今天为2021-10-10。从订单明细表(order_detail)中统计每天商品1和商品2销量(件数)的差值(商品1销量-商品2销量)。从订单信息表(order_info)中查询出每个用户的最近三笔订单。

2024-09-15 17:01:25 856

原创 中级练习[7]:Hive SQL

从订单信息表(order_info)和用户信息表(user_info)中,分别统计每天男性和女性用户的订单总金额,如果当天男性或者女性没有购物,则统计结果为0。从订单明细表(order_detail)中查询出所有购买过商品1和商品2,但是没有购买过商品3的用户。查询截止每天的最近3天内的订单金额总和以及订单金额日平均值,保留两位小数,四舍五入。

2024-09-15 16:54:41 622

原创 中级练习[6]:Hive SQL订单配送与用户社交行为分析

从配送信息表(delivery_info)中求出每个用户的首单(用户的第一个订单)中即时订单的比例,并保留两位小数,以小数形式显示。即时订单是指期望配送日期和下单日期相同的订单,而计划订单是指期望配送日期和下单日期不同的订单。从登录明细表(user_login_detail)中查询出所有用户的连续登录两天及以上的日期区间,以登录时间(login_ts)为准。

2024-09-14 11:25:10 610

原创 中级练习[5]:Hive SQL用户行为与商品价格综合分析

从用户登录明细表(user_login_detail)和订单信息表(order_info)中查询每个用户的注册日期(首次登录日期)、总登录次数以及其在2021年的登录次数、订单数和订单总额。从商品价格修改明细表(sku_price_modify_detail)中查询2021-10-01的全部商品的价格,假设所有商品初始价格默认都是99。从订单明细表(order_detail)中查询累积销售件数高于其所属品类平均数的商品。

2024-09-14 11:19:19 716

原创 中级练习[4]:Hive SQL商品销售与用户增长数据分析

从订单明细表(order_detail)中筛选出去年(2021年)总销量小于100的商品及其销量,同时不考虑上架时间少于一个月的商品。假设今天的日期是2022-01-10。从用户登录明细表(user_login_detail)中查询每天的新增用户数。如果一个用户在某天登录了,并且在此之前没有登录记录,则认为该用户为当天的新增用户。从订单明细表(order_detail)中统计出每种商品销售件数最多的日期及当日销量。如果有同一商品多日销量并列的情况,取其中的最小日期。

2024-09-13 11:00:00 882

原创 中级练习[3]:Hive SQL用户行为与商品销售数据分析

从订单信息表(order_info)中统计每个用户截止其每个下单日期的累积消费金额,以及每个用户在其每个下单日期的VIP等级。从订单信息表(order_info)中查询首次下单后第二天仍然下单的用户占所有下单用户的比例,结果保留一位小数,并以百分数显示。从订单明细表(order_detail)统计每个商品销售首年的年份,销售数量和销售总额。

2024-09-13 10:00:00 625

原创 中级练习[2]:Hive SQL数据分析与查询实战

查询订单明细表(order_detail)中销量(下单件数)排名第二的商品id,如果不存在返回null,如果存在多个排名第二的商品则需要全部返回。

2024-09-12 09:00:00 259

原创 中级练习[1]:Hive数据环境搭建

注:表中一行数据中的两个user_id,表示两个用户互为好友。

2024-09-12 08:00:00 933

原创 初级练习[5]:多表查询——多表连接

【代码】初级练习[5]:多表查询——多表连接。

2024-09-11 15:24:55 962

原创 初级练习[4]:多表查询——表联结

【代码】多表查询[1]:表联结。

2024-09-11 14:54:26 597

原创 初级练习[3]:Hive SQL子查询应用

没有学全所有课,也就是该学生选修的课程数 < 总的课程数。学生选修的课程数 = 3。

2024-09-10 20:06:19 515

原创 初级练习[2]:Hive SQL查询汇总分析

先提取出每个学生的姓并分组,如果分组的count>=2则为同姓。按课程分组并统计组内人数,过滤条件大于等于15。对成绩表中的学号做去重并count。按照学科分组并使用max和min。按照课程号分组并求组内的平均值。http://环境准备。分组、sum、排序。

2024-09-10 19:09:46 1403

原创 初级练习[1]:Hive数据环境搭建与SQL查询实战

【代码】Hive数据环境搭建与SQL查询实战。

2024-09-09 14:36:13 1133

原创 Hadoop压缩技术与Hive文件格式详解

压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否压缩格式对应的编码/解码器DEFLATEgzipbzip2LZOSnappy压缩算法原始文件大小压缩文件大小压缩速度解压速度gzip8.3GB1.8GB17.5MB/s58MB/sbzip28.3GB1.1GB2.4MB/s。

2024-09-09 14:04:59 1383

原创 Hive中的分区表与分桶表详解

不过,并非所有的数据集都可形成合理的分区。分桶表的基本原理是,首先为每行数据计算一个指定字段的数据的 hash 值,然后模以一个指定的分桶数,最后将取模运算结果相同的行,写入同一个文件中,这个文件就称为一个分桶(bucket)。动态分区的模式,默认 strict(严格模式),要求必须指定至少一个分区为静态分区,nonstrict(非严格模式)允许所有的分区字段都使用动态分区。命令后,分区元数据会被删除,而 HDFS 的分区路径不会被删除,同样会导致 Hive 的元数据和 HDFS 的分区路径不一致。

2024-09-08 18:21:03 1551

原创 掌握Hive函数[3]:从基础到高级应用

窗口函数是一种在SQL中处理数据的强大工具,它允许用户在结果集的一个特定窗口或范围内执行计算,而不是在整个查询结果上进行操作。1)Hive自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便地扩展。2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。一进一出。用户自定义聚合函数,多进一出。类似于:count/max/min。用户自定义表生成函数,一进多出。

2024-09-08 18:04:49 1198

原创 掌握Hive函数[2]:从基础到高级应用

(多行传入,一个行输出)

2024-09-07 22:12:08 520 1

原创 掌握Hive函数[1]:从基础到高级应用

Hive将常用的逻辑封装成函数供用户使用,类似于Java中的函数。这样做的好处是可以避免用户反复编写相同的逻辑代码,可以直接调用这些函数。重点在于用户需要知道函数的名称及其功能。Hive提供了大量的内置函数,这些函数可以大致分为以下几类:单行函数、聚合函数、炸裂函数(Explode函数)和窗口函数。查看系统内置函数查看内置函数用法查看内置函数详细信息。

2024-09-07 21:50:31 1293 1

原创 Hive SQL 分组与连接操作详解

Group By语句通常会和聚合函数一起使用,按照一个或者多个列对结果进行分组,然后对每个组执行聚合操作。

2024-09-06 19:59:56 952 1

原创 Hive SQL基础语法及查询实践

查询出薪水大于1000的所有员工。典型的查询会返回多行数据。子句用于限制返回的行数。子句中不能使用字段别名。

2024-09-06 19:48:52 1472

原创 Hive DML(数据操作语言)操作指南

Export导出语句可将表的数据和元数据信息一并导出到HDFS路径,Import可将Export导出的内容导入Hive,表的数据和元数据信息都会恢复。Export和Import可用于两个Hive实例之间的数据迁移。②加载HDFS上数据,导入完成后去HDFS上查看文件是否还存在。(2)加载HDFS文件到hive中。(3)加载数据覆盖表中已有的数据。(1)加载本地文件到hive。②加载数据覆盖表中已有的数据。(2)根据查询结果插入数据。①上传文件到HDFS。①上传文件到HDFS。

2024-09-05 12:51:28 509

原创 Hive数据库与表操作全指南

创建一个数据库,不指定路径注:若不指定路径,其默认路径为创建一个数据库,指定路径创建一个数据库,带有。

2024-09-05 12:30:40 1543

原创 Hive常用命令及配置详解

注意:用户自定义配置会覆盖默认配置。另外,Hive也会读入Hadoop的配置,因为Hive是作为Hadoop的客户端启动的,Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启动的所有Hive进程都有效。注意某些系统级的参数,例如log4j相关的设定,必须用前两种方式设定,因为那些参数的读取在会话建立以前已经完成了。中关闭虚拟内存检查(虚拟内存校验,如果已经关闭了,就不需要配了)。上述三种设定方式的优先级依次递增。注意:仅对本次Hive启动有效。注意:仅对本次Hive启动有效。

2024-09-04 18:20:17 941

原创 Hive服务部署及Datagrip工具使用

目录Hive服务部署 Hiveserver2服务1)用户说明2)Hiveserver2部署(1)Hadoop端配置(2)Hive端配置3)测试(1)启动Hiveserver2(2)使用命令行客户端beeline进行远程访问(3)使用Datagrip图形化客户端进行远程访问① 创建连接② 配置连接属性③ 界面介绍④ 测试SQL执行⑤ 修改数据库 Metastore服务1)Metastore运行模式2)Metastore部署(1)嵌入式模式(2)独立服务模式3)测试 编写Hive服务启动脚本(了解)1)前台启动

2024-09-04 17:28:16 1646

原创 Hive整合MySQL

在Xshell窗口中开启另一个窗口开启Hive(两个窗口都可以操作Hive,没有出现异常)配置主要是root用户 + 密码,在任何主机上都能登录MySQL数据库。若因为安装失败或者其他原因,MySQL需要卸载重装,可参考以下内容。初始化Hive元数据库(修改为采用MySQL存储元数据)将MySQL的JDBC驱动拷贝到Hive的lib目录下。查看元数据库中存储的表中列相关信息。查看MySQL数据的存储位置。查看安装过的MySQL相关包。查看元数据库中存储的库信息。查看元数据库中存储的表信息。

2024-09-03 14:16:07 1513

原创 Hive入门

Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。那么,Hive是为了解决什么问题而诞生的呢?下面通过一个案例,来快速了解一下Hive。

2024-09-03 13:56:02 1248

原创 大数据技术之HBase 与 Hive 集成(7)

如果大量的数据已经存放在 HBase 上面,并且需要对已经存在的数据进行数据分析处理,那么 Phoenix 并不适合做特别复杂的 SQL 处理。建立 Hive 表,关联 HBase 表,插入数据到 Hive 表的同时能够影响 HBase 表。提示:完成之后,可以分别进入 Hive 和 HBase 查看,都生成了对应的表。该案例 2 紧跟案例 1 的步骤,因此,在完成此案例之前,请先完成案例 1。这张表,使之可以借助 Hive 来分析 HBase 这张表中的数据。在 HBase 中已经存储了某一张表。

2024-09-02 19:58:42 1335 1

原创 Hive 安装

原因在于 Hive 默认使用的元数据库为 Derby。Derby 数据库的特点是同一时间只允许一个客户端访问。如果多个 Hive 客户端同时访问,就会报错。由于在企业开发中,都是多人协作开发,需要多客户端同时访问 Hive,怎么解决呢?我们可以将 Hive 的元数据改为用 MySQL 存储,MySQL 支持多客户端同时访问。,体会 Hive 与 Hadoop 之间的关系。(2)source 一下。观察 HDFS 的路径。

2024-09-02 19:51:39 1481

原创 大数据技术之HBase整合 Phoenix(6)

Phoenix 是 HBase 的开源 SQL 皮肤。可以使用标准 JDBC API 代替 HBase 客户端 API 来创建表,插入数据和查询 HBase 数据。

2024-09-01 13:12:54 1404

原创 大数据技术之HBase优化(5)

的最前面,前缀为最简单的数字。调整的原则为:可枚举的放在前面。其中时间是可以枚举的,用户名称无法枚举,所以必须把时间放在前面。使用的特点为:适用性强但泛用性差,能够完美实现一个需求但不能同时完美实现多个需求。的主要目的,就是在一定程度上防止数据倾斜,使数据均匀地分布于所有的。为了能够统计张三在 2021 年 12 月份消费的总金额,我们需要用。命令能够得到张三在这个月消费的所有记录,之后再进行累加即可。JVM 调优的思路有两部分:一是内存设置,二是垃圾回收器设置。处于哪个预分区的区间内。

2024-09-01 12:39:19 1077

原创 大数据技术之HBase进阶(4)

每一个 region 维护着 startRow 与 endRowKey,如果加入的数据符合某个 region 维护的 rowKey 范围,则该数据交给这个 region 维护。那么依照这个原则,我们可以将数据所要投放的分区提前大致的规划好,以提高 HBase 性能。1)手动设定预分区2)生成 16 进制序列预分区3)按照文件中设置的规则预分区aaaabbbbccccdddd4)使用 JavaAPI 创建预分区// 1.获取配置类// 2.给配置类添加配置// 3.获取连接。

2024-08-31 18:14:33 1384

原创 大数据技术之HBase API(3)

类来创建,使用完成后需手动关闭连接。由于连接是重量级的,建议每个进程只使用一个连接,通过连接中的。包虽然会报错不存在,但这仅是一个测试用的依赖,不会影响实际使用。创建 HBaseDDL 类,添加静态方法即可作为工具类。根据官方API介绍,HBase的客户端连接由。使用单例模式确保一个连接被多个线程共享。属性执行HBase命令。文件夹中创建配置文件。

2024-08-31 17:49:51 1053

原创 大数据技术之HBase 快速入门(2)

在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。表示删除所有版本的数据,即为当前行当前列的多个 cell。修改读取 cell 的版本数,默认读取一个。如果重复写入相同 rowKey,相同列的数据,会写入多个版本进行覆盖。是扫描数据,能够读取多行数据,不建议扫描过多的数据,推荐使用。来控制读取的数据,默认范围左闭右开。

2024-08-30 14:07:29 1219

原创 大数据技术之HBase简介(1)

Apache HBase™ 是一种分布式、可扩展的 NoSQL 数据库,它基于 HDFS 进行数据存储。

2024-08-30 13:44:22 1060

Linux环境一键执行脚本命令安装msyql,主打的就是便捷

使用方法: 1.将mysql目录下的所有文件放在Linux系统中同个目录下 2.执行install_mysql.sh脚本即可自动安装 3.如果有提示,可全部默认输入yes回车就好 4.登录MySQL默认密码为000000,如有修改,在执行install_mysql.sh之前,可自行修改脚本如下内容 alter user 'root'@'%' identified with mysql_native_password by '000000';将'000000'改为自己想设置的密码即可

2024-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除