小邱继续努力-CSDN博客

原创 Hive内置运算符

关系运算符是二元运算符，执行的是两个操作数的比较运算。* 每个关系运算符都返回boolean类型的结果（ture 或 false）。1. 等值比较：= ，==2. 不等值比较： <> ,！3.小于比较：<4. 小字等于比较：<=5. 大于比较：>6. 大于等于比较：>=7. 空置判断： is null8. 非空判断： is not null9.like比较：like10.java的like操作：rlike11.regexp操作：regexp。

2023-08-09 19:49:13 253 1

原创 Spark SQL

Hive：类似于sql的HiveQL语言， sql==> mapreduce特点：mapreduce改进：hive on tez，hive on spark，hive on mapreduce特点：基于spark，基于内存的列式存储，与hive能够兼容缺点：HiveQL的解析，逻辑执行计划生成，执行计划的优化是依赖于hive的，仅仅只是把物理执行计划从mapreduce作业替换成了spark作业。

2023-08-08 21:50:06 80

原创大数据开发：hive sql 中的4个by排序方法

与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下必须指定 limit 否则执行会报错（在order by 状态下所有数据会到一台服务器进行reduce操作也即只有一个reduce，如果在数据量大的情况下会出现无法输出结果的情况，如果进行 limit n ，那只有 n * map number 条记录而已。但是排序只能是升序排序，不能像distribute by一样去指定排序的规则为ASC或者DESC，否则报错。(default value / 默认值)

2023-05-08 11:34:55 878 1

原创数据库-Oracle性能优化

4.优化器hints的优化，写hints的目的是人为的去改变sql语句的执行计划，思路有并行数，表连接的顺序、表连接的方法、访问路径等，通过查看执行计划了解执行顺序，扫描方式，关联机制，耗费来进行调整，比如说数据库性能足够的时候考虑会用到并行数，在select后用paralle加上并行数，可以达到优化的目的。相反，那些很少查询的列，数据值很少的列，经常进行数据修改的列等等就不适合建索引，如果增加索引会增加空间需求和降低系统的维护速度，一般来说一张表里最多不会建超过5个的索引。

2023-05-06 22:35:36 503 1

原创数据去重:数据量过亿的情况下用哪种方式去重最好?

数据去重,rowid去重方法的使用和调优

2023-04-29 13:25:25 516 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Hive内置运算符

原创 Spark SQL

原创 大数据开发：hive sql 中的4个by排序方法

原创 数据库-Oracle性能优化

原创 数据去重:数据量过亿的情况下用哪种方式去重最好?

空空如也

空空如也

原创大数据开发：hive sql 中的4个by排序方法

原创数据库-Oracle性能优化

原创数据去重:数据量过亿的情况下用哪种方式去重最好?