自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Hive内置运算符

关系运算符是二元运算符,执行的是两个操作数的比较运算。* 每个关系运算符都返回boolean类型的结果(ture 或 false)。1. 等值比较:= ,==2. 不等值比较: <> ,!3.小于比较:<4. 小字等于比较:<=5. 大于比较:>6. 大于等于比较:>=7. 空置判断: is null8. 非空判断: is not null9.like比较:like10.java的like操作:rlike11.regexp操作:regexp。

2023-08-09 19:49:13 194 1

原创 Spark SQL

Hive:类似于sql的HiveQL语言, sql==> mapreduce特点:mapreduce改进:hive on tez,hive on spark,hive on mapreduce特点:基于spark,基于内存的列式存储,与hive能够兼容缺点:HiveQL的解析,逻辑执行计划生成,执行计划的优化是依赖于hive的,仅仅只是把物理执行计划从mapreduce作业替换成了spark作业。

2023-08-08 21:50:06 65

原创 大数据开发:hive sql 中的4个by排序方法

与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下必须指定 limit 否则执行会报错(在order by 状态下所有数据会到一台服务器进行reduce操作也即只有一个reduce,如果在数据量大的情况下会出现无法输出结果的情况,如果进行 limit n ,那只有 n * map number 条记录而已。但是排序只能是升序排序,不能像distribute by一样去指定排序的规则为ASC或者DESC,否则报错。(default value / 默认值)

2023-05-08 11:34:55 804 1

原创 数据库-Oracle性能优化

4.优化器hints的优化,写hints的目的是人为的去改变sql语句的执行计划,思路有并行数,表连接的顺序、表连接的方法、访问路径 等,通过查看执行计划了解执行顺序,扫描方式,关联机制,耗费来进行调整,比如说数据库性能足够的时候考虑会用到并行数,在select后用paralle加上并行数,可以达到优化的目的。相反,那些很少查询的列,数据值很少的列,经常进行数据修改的列等等就不适合建索引,如果增加索引会增加空间需求和降低系统的维护速度,一般来说一张表里最多不会建超过5个的索引。

2023-05-06 22:35:36 441 1

原创 数据去重:数据量过亿的情况下用哪种方式去重最好?

数据去重,rowid去重方法的使用和调优

2023-04-29 13:25:25 471 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除