hive
文章平均质量分 90
hive
five小点心
阳光开朗孔乙己
展开
-
SQL优化之谓词下推
1、谓词下推:在存储层即过滤了大量大表无效数据,减少扫描无效数据;所谓下推,即谓词过滤在map端执行,所谓不下推,即谓词过滤在reduce端执行2、inner join时,谓词放任意位置都会下推3、left join时,左表的谓词应该写在where 后4、right join时,左表的谓词应该写在join后通过上面的分析,谓词下推是生效的,但是在我们对最后结果的输出是因为执行顺序不同导入的结果不一致。原创 2023-06-19 09:01:11 · 954 阅读 · 0 评论 -
大数据技术之Hive练习篇——zeppelin数据清洗
在customer表中,email字段、address字段、credit_no字段不希望被显示为明文,需要对其进行加密。数据分为三类,24小时制的、AM、PM分类处理。这里的时间格式不统一,有24时记时,也有12时记时,需要对数据进行整合。在ext_store_review中找出存在冲突的交易映射关系。根据商店和唯一的顾客id获取最受欢迎的产品。根据客户数量找出最受欢迎的5种产品。根据顾客消费价格找出最受欢迎的商店。根据顾客交易情况找出最受欢迎的商店。根据购买频率找出最畅销的5种产品。原创 2023-03-04 11:18:53 · 793 阅读 · 0 评论 -
大数据技术之Hive(五)拉链表的设计与实现
针对订单表、订单商品表,流水表,这些表中的数据是比较多的,如果使用全量的方式,会造成大量的数据冗余,浪费磁盘空间。所以这种表,一般使用增量的方式,每日采集新增的数据。在这注意一点:针对订单表,如果单纯的按照订单产生时间增量采集数据,是有问题的,因为用户可能今天下单,明天才支付,但是Hive是不支持数据更新的,这样虽然MySQL中订单的状态改变了,但是Hive中订单的状态还是之前的状态。想要解决这个问题,一般有这么几种方案:每天全量导入订单表的数据。原创 2023-03-06 10:51:04 · 1864 阅读 · 0 评论 -
大数据技术之Hive(三)hive常用函数
hive自带了一些函数,比如max/min等。但是数量有限,自己可以通过UDF来方便的扩展。当hive提供的内置函数无法满足业务需求时,就可以考虑用户自定义函数UDF根据用户自定义函数类别分为以下三种:UDF一进一出UDAF用户自定义聚合函数,多进一出类似于:count/max/minUDTF用户自定义表生成函数,一进多出。如lateral view explode()原创 2023-02-25 10:27:21 · 2566 阅读 · 2 评论 -
大数据技术之Hive(一)Hive的安装与配置
打开/opt/soft/hive312/conf/目录:cd /opt/soft/hive312/conf/我这里自带的是guava-19,为了防止版本问题导致安装失败,将其进行删除后重新安装。在hive312下面添加一个mysql-connector-java jar包。创建 hive-site.xml文件:touch hive-site.xml。提取码: m31e 复制这段内容后打开百度网盘手机App,操作更方便哦。打开可视化窗口,可以看到我们新建的数据库。放在/opt/soft目录下。原创 2023-02-17 09:19:40 · 898 阅读 · 0 评论 -
大数据技术之Hive(四)分区表和分桶表、文件格式和压缩
再比如,若分区表为外部表用户执行 drop partition 命令后,分区元数据会被删除,而 HDFS 的分区路径不会被删除同样会导致 Hive 的元数据和 HDFS 的分区路径不一致。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分,分区针对的是数据的存储路径,分桶针对的是数据文件。分桶表的基本原理是,首先为每行数据计算一个指定字段的数据的 hash 值,然后模以·个指定的分桶数,最后将取模运算结果相同的行,写入同一个文件中,这个文件就称为一个分桶(bucket)。原创 2023-02-28 11:56:14 · 1480 阅读 · 0 评论 -
大数据技术之Hive(二)Hive入门
1.1.1 hive出现的原因FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产生了hive这门技术,并继续发展成为一个成功的Apache项目。hive是一个构建在Hadoop上的数据仓库工具(框架),可以将hdfs上的结构化的数据文件映射成一张数据表,并可以使用类SQL语句来对这样的数据文件进行查询统计的功能。hive是一个Hadoop客户端,本质是将SQL语句转化成MapReduce程序。所以Hive不存储数据,也没有任何计算功能,只是。原创 2023-02-23 00:33:16 · 528 阅读 · 1 评论