自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 HIVE核心优化方案

目录1.数据采样2.join优化3.Hive索引4.数据倾斜。

2024-01-29 11:53:09 1553

原创 HIVE调优方式(大全)

如果HiveSQL必须要转MR任务来执行,则尽量在本机(本地)直接执行,而不是交由Yarn来调度执行,针对与数据量比较小的需求,可以提高效率。开启Map段的join,在内存中完成处理,避免把join的动作交给ReduceTask段来处理,出现数据倾斜的情况.(默认为开启状态)more: 默认的,全表扫描,查询指定的列,limit分页查询,简单查询不走MR,其他的要转MR任务。建议动态分区的时候,关闭严格模式(默认开启),严格模式要求:动态分区的时候,至少指定1个静态分区。

2024-01-17 20:40:56 1449

原创 HIVE表操作(基础)

insert overwrite [local] directory '存储该文件的路径' [row format delimited fields terminated by '行格式分隔符']2. into的时候, table关键字可以省略不写, overwrite的时候, table关键字必须写.3. 导出的时候, 是覆盖导出的, 建议要导出到的目录, 内容为空, 否则啥都没了.列名1 数据类型 [comment] '数据描述信息',列名2 数据类型 [comment] '数据描述信息',

2024-01-12 19:38:14 604

原创 HIVE数据仓库(入门)

什么是分布式SQL?通过分布式的方式, 执行SQL语句, 获取分析结果学习hive的意义1. 通过Java 或者 Python直接操作MapReduce, 也可以做分析, 但是开发难度稍大2.通过SQL做分析, 相对简单易上手3.Hive就是让我们写类SQL语法, 然后Hive底层会将其解析成MR任务来执行。

2024-01-10 20:22:26 337

原创 数据库经典34题(基础)

- 需求7: 提供订单编号为10248的相关信息,包括product name, unit price (在 order_items 表中), quantity(数量),company_name(供应商公司名字 ,起别名 supplier_name).-- 需求3: 查询每一个商品的product_name, category_name, quantity_per_unit, unit_price, units_in_stock 并且通过 unit_price 字段排序。

2024-01-08 20:13:05 638

原创 基于python的学生信息管理系统

下面为实现学生信息管理系统的基本思路,以及需要实现的各个功能模块。以上就是全部代码,希望可以对你有所帮助。

2024-01-06 14:37:15 385 1

原创 Linux简介与基本命令

Linux之父:林纳斯·托瓦兹吉祥物:企鹅特点:开源,免费,安全,稳定

2024-01-04 20:24:10 1694 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除