大数据（一）MaxCompute

胖当当技术

已于 2024-12-04 09:59:06 修改

阅读量2.6k

点赞数 18

分类专栏：架构云计算文章标签： odps 学习大数据

于 2024-12-04 09:37:49 首次发布

本文链接：https://blog.csdn.net/m0_69270256/article/details/144140073

版权

一、引言

作者后面会使用MaxCompute，所以在进行学习研究，总会有一些疑问产生，这里讲讲作者的疑问和思路

MaxCompute（原名 ODPS - Open Data Processing Service）是阿里云提供的大数据处理平台，专门用于批量数据存储和大规模并行计算。它广泛应用于数据分析和处理任务，为企业级数据处理提供高效的解决方案。

下面是 MaxCompute 的一些主要功能和应用场景：

大规模数据存储：MaxCompute 提供高效的数据存储解决方案，可以存储 PB 级别的数据，支持结构化和半结构化数据。它的存储系统具有高可用性和高可靠性。
大数据计算引擎：MaxCompute 提供了强大的计算能力，能够处理大规模数据集。它支持 SQL 、MapReduce 、Graph 和 UDF（用户自定义函数）等多种计算模型，为复杂数据分析提供支持。
高效的资源管理：MaxCompute 通过资源组、任务队列等资源管理机制，能够实现资源的高效调度和利用，确保计算任务的高效进行。
安全和权限管理：MaxCompute 提供了完善的安全机制，包括数据访问权限控制、数据加密等，确保数据的安全性。
数据处理和分析：适用于多种数据处理和分析任务，包括数据清洗、预处理、数据挖掘、统计分析等。它可以与阿里云其他大数据产品（如 DataWorks 、AnalyticDB）集成，形成完整的大数据解决方案。
扩展性和高可用性：MaxCompute 具有很强的扩展性，可以根据需要动态扩展计算资源。此外，它具有高可用性设计，确保服务的稳定运行。
多语言支持：MaxCompute 支持多种编程语言，如 SQL 、Python 、Java 等，方便用户编写数据处理和分析任务

一般来说数据分布中存在少量出现频率非常高的“热点”数据，而同时也有大量出现频率低但多样性高的“长尾”数据

但是MaxCompute将Fuxi Instance 耗费时长高于平均值 2倍的实例判定为长尾

也就是将任务分配和执行的引擎实例时间执行过长的认为长尾

比如这个sql他就举例说会引起长尾问题

SELECT shop_id,sum(is_open) AS 营业天数 FROM table_xxx_diWHERE dt BETWEEN 'bizdate365′AND′bizdate365′AND′{bizdate}'GROUP BY shop_id;

按照社区请教了一些朋友，这种可能是数据倾斜造成，比如一些 shop_id 的数据量远大于其他 shop_id，GROUP BY shop_id的处理时间会明显超过平均值，从而导致长尾现象

解决方案一般是

这些说起来都比较笼统，作者对于这个长尾还是有一些模糊

比如数据是

transaction_id	user_id	item_id	amount	category_id
1	1001	501	100	10
2	1002	502	150	10
3	1003	503	200	20
...	...	...	...	...
99999	1001	504	100	10

sql查询是

SELECT user_id, COUNT(*) AS transaction_count
FROM transactions
GROUP BY user_id
ORDER BY transaction_count DESC;

这样会因为user_id 1001 存在大量记录（数据倾斜），导致数据在计算节点上分布不均。部分计算节点会因为数据量过大而成为瓶颈，其他节点却几乎无事可做。这会拖慢整个查询的执行时