大数据单机学习环境搭建(7)SQL的DQL查询优化

赫加青空

已于 2022-10-15 21:22:35 修改

阅读量287

点赞数

分类专栏：大数据 SQL Hive 文章标签： sql 数据库 big data

于 2022-05-11 11:01:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LMTX069/article/details/124704050

版权

大数据同时被 3 个专栏收录

20 篇文章 1 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

专题：大数据单机学习环境搭建和使用

1.模型优化(内练固本)——预处理思想
- - 1.1复杂SQL拆分
  - 1.2数据合并、可行性和可用性评估
2.技术优化(外练强身)
- - 2.1表设计优化——好的开端是成功的一半
  - 2.2查询任务优化——锦上添花

大数据单机学习环境搭建(7)SQL的DQL查询优化

1.模型优化(内练固本)——预处理思想

在这里插入图片描述
注：所谓预处理就是提前准备好，形同饭店的备菜环节，应该先把要用到的菜洗、切等预处理好，等客人点菜了直接炒就好。预处理环节层层递进，适合复杂任务的拆分处理，简单任务“杀鸡焉用牛刀”。

模型设计优化的思路需要在工作中养成，很重要但很难像技术优化那样清晰可见，可能这就是经验的重要性吧，这里举几个例子简单说明下：

1.1复杂SQL拆分

内容：周月报优化
优化：小时分区任务计算转化为天任务计算，每月一次的统计平均到每天去做，最后仅收集每日一条的统计结果（小时数据量约4000万左右）
效果：6个8小时任务，均压缩到10分钟内完成

1.2数据合并、可行性和可用性评估

内容：某游戏排行榜数据接口任务
优化原因：模型及其复杂，需求方目的明确，但业务逻辑转化开发逻辑后数据量极大，无法实现前端展示（接口返回数据集为GB级）。多数据结果集合并更是无法进行。
优化方式：沟通修改需求，需求方往往并不能预估需求结果(事实上开发人员也做不到)，只能是一边开发一边调整，主要是找到问题合理、准确的解释

2.技术优化(外练强身)

2.1表设计优化——好的开端是成功的一半

合适的表设计和合适的存储方式，对数据的查询至关重要；反之会直接造成查询完全无法进行的局面，优化更无从谈起

表的设计过程中要首先区分：
a.结合数据库类型(OLTP、OLAP)，区分使用场景是主“读”操作还是主“写”操作；是否支持实时查询等
b.结合数据库特性(关系型数据库、非关系型数据库)，区分对索引、事务和DQL的支持程度；
“读”为主的数据库，表的设计原则：
a.避免全表扫描，通过分区、分桶的方式实现；
b.设置主键、索引，提高查询效率；
c.选择文件存储格式(NoSQL)，从文件读取时间和存储空间方面考虑。

2.2查询任务优化——锦上添花

DQL语法编写常识
在这里插入图片描述
扩展内容：《Hive优化实现》

声明：本文所载信息不保证准确性和完整性。文中所述内容和意见仅供参考，不构成实际商业建议，如有雷同纯属巧合。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据单机学习环境搭建(7)SQL的DQL查询优化

SQL查询优化的核心思想1.模型优化(内练固本)——预处理思想1.1复杂SQL拆分1.2数据合并、可行性和可用性评估2.技术优化(外练强身)2.1表设计优化——好的开端是成功的一半2.2查询任务优化——锦上添花1.模型优化(内练固本)——预处理思想注：所谓预处理就是提前准备好，形同饭店的备菜环节，应该先把要用到的菜洗、切等预处理好，等客人点菜了直接炒就好。预处理环节层层递进，适合复杂任务的拆分处理，简单任务“杀鸡焉用牛刀”。模型设计优化的思路需要在工作中养成，很重要但很难像技术优化那样清晰可见，可能
复制链接

扫一扫

专栏目录

赫加青空 CSDN认证博客专家 CSDN认证企业博客

码龄6年

48: 原创

6万+: 周排名

3万+: 总排名

19万+: 访问

: 等级

784: 积分

1082: 粉丝

248: 获赞

82: 评论

1299: 收藏

私信

关注

热门文章

分类专栏

数据治理 1篇
机器学习 11篇
Python 18篇
大数据 20篇
spark 4篇
SQL 11篇
Hive 12篇
图计算 3篇
可视化展示 3篇

最新评论

Graphviz绘制模型树1——软件配置与XGBoost树的绘制
2301_79470918: 中文乱码怎么办
FineReport帆软报表使用入门
梦里繁花窗外雨: 才发现，那个数据决策系统是从设计器里面打开：服务器（server)-报表平台管理(platform management)
XGBoost模型调参、训练、保存、评估和预测
赫加青空: 预测用的就是model_save_load()这个方法，简单来说分3步：数据加工、加载模型、模型预测。其中数据加工就是要把新数据向训练数据一样做预处理、特征选择等，后两个步骤在model_save_load()方法里，不再赘述了。如果我还是没说清楚，可以参考我另一篇《机器学习实践(1.1)XGBoost分类任务》1.2模型训练、验证里对X_test的预测，其实新数据预测也只是在重复这个过程。
XGBoost模型调参、训练、保存、评估和预测
GKevin_: 博主您好，我想请问一下模型建立后，想用模型去预测数据该怎么带入呢
XGBoost算法原理及基础知识
拳世界最好855: 明白了，多谢！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。