基于DataWorks+MaxCompute的企业本地数据上云实践

实验内容:

实验数据来自一家大型石油气配送企业,目前业务区域已经涵盖湖北省内大部分城市。企业面向的客户身份比较复杂,主要分为五类客户群体:居民、商户、上门、信用客户、合作商。

居民,商户,上门的区别主要是价格不同,居民客户是指用量少的客户,商户是指用量比较大的客户,上门客户是指离直营门店近的客户,具体的购买价格(按每公斤单价)排序:居民 > 上门 > 商户。

信用客户是指可以先送气后结账的客户。

合作商是指企业的合作商户,直接从企业批量订购石油气卖给当地客户。

本次实验主要将企业的数据上传到MaxCompute数仓,在云端对这些客户数据进行统计,得到每个分类下的客户数量。


实验思路:

1.进入DataWorks上传本地数据到MaxCompute数仓。

2.通过DataWorks对MaxCompute数仓数据进行查询操作。


实验步骤:

下载CSV文件。

DataWorks上传的默认数据源为CSV文件,实验前需要先下载CSV文件。

https://university-labfileapp.oss-cn-hangzhou.aliyuncs.com/%E5%AE%8F%E9%B9%8F--%E5%A4%A7%E6%95%B0%E6%8D%AEACA/gas.csv

在【产品与服务列表】搜索框输入DataWorks,在搜索结果中点击大数据开发治理平台DataWorks,进入DataWorks控制台

image.png

image.png

点击进入工作空间,选择数据开发。

image.png

点击目录栏,选择上传和下载。

image.png

点击上传,选择数据上传按钮。

image.png

选择刚刚下载的文件。

image.png

image.png

DataWorks会自动解析上传的CSV数据,所有字段属性都设置STRING。

image.png

由于DataWorks不支持字段名为中文,需要将字段名称改为英文或数字,修改字段名称,如下图所示:

image.png

上方的表格为上传的CSV文件预览数据,点击【提交】将数据保存到MaxCompute数仓。

image.png

点击提交按钮的效果如下图所示:

image.png

上传完成后会跳转到表管理页面,如下图所示:

image.png

点击数据查询。

image.png

找到【我的MaxCompute表】点击【添加】,在左侧出现【我的MaxCompute表】

只有添加了我的MaxCompute表数据集后才能继续实验。

image.png

如图,在搜索框输入【test_gas】,下方出现刚才创建的数据表

image.png

image.png

在右侧出现对应的SQL查询语句。

image.png

效果如下图所示,自动生成了一个临时文件,并自动生成了刚刚创建的test_gas表的SQL语句

在查询上传的数据之前,先按照以下步骤对数据源进行授权

如下图,首先点击右上角 按钮,然后点击【数据源】下拉框,再点击【安全中心】进行页面跳转

image.png

image.png

运行效果如下图所示:

image.png


**体验客户分类的统计操作**

查询居民身份的客户数据

在SQL查询编辑页面,删除上一步自动生成的SQL语句,输入以下SQL语句,并如下图所示将项目名称修改过来(注意:SQL语句中的项目名称一定要与当前MaxCompute项目名称一致)

SELECT  col_1 -- name
        ,col_2 -- type
        ,col_3 -- city
        ,col_4 -- area
        ,col_5 -- floor
        ,col_6 -- yajin
FROM    u_vtqgxl1n_1696059289.test_gas
where col_2='居民'
LIMIT   200
;
//相比前一段SQL代码,增加了WHERE 客户身份 = ‘居民’WHERE 代表增加查询条件,这段SQL代码的查询条件为客户身份等于【居民】的数据

运行效果如下图所示,所有的居民客户就出现了

image.png


实验总结:

通过本次实验,学会了如何将本地数据上传到阿里云MaxCompute数仓,同时学习了如何查询,筛选我们上传的数据。

  • 8
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一、项目简介 本项目教程以国内电商巨头实际业务应用场景为依托,同时以阿里ECS服务器为技术支持,紧跟大数据主流场景,对接企业实际需求,对电商数仓的常见实战指标进行了详尽讲解,让你迅速成长,获取最前沿的技术经验。 二、项目架构 版本框架:Flume、DateHub、DataWorksMaxCompute、MySql以及QuickBI等; Flume:大数据领域被广泛运用的日志采集框架; DateHub:类似于传统大数据解决方案中Kafka的角色,提供了一个数据队列功能。对于离线计算,DataHub除了供了一个缓冲的队列作用。同时由于DataHub提供了各种与其他阿里上下游产品的对接功能,所以DataHub又扮演了一个数据的分发枢纽工作; 据上传和下载通道,提供SQL及MapReduce等多种计算分析服务,同时还提供完善的安全解决方案; DataWorks:是基于MaxCompute计算引擎,从工作室、车间到工具集都齐备的一站式大数据工厂,它能帮助你快速完成数据集成、开发、治理、服务、质量、安全等全套数据研发工作; QuickBI & DataV:专为上用户量身打造的新一代智能BI服务平台。 三、项目场景 数仓项目广泛应用于大数据领域,该项目技术可以高度适配电商、金融、医疗、在线教育、传媒、电信、交通等各领域; 四、项目特色 本课程结合国内多家企业实际项目经验。从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建基于阿里服务器的大数据集群。采用阿里ECS服务器作为数据平台,搭建高可用的、高可靠的Flume数据采集通道,运用阿里DateHub构建中间缓冲队列并担任数据分发枢纽将数据推送至阿里自主研发的DataWorks数据进行分层处理,采用MaxCompute作为处理海量数据的方案,将计算结果保存至MySQL并结合阿里的QuickBI工作做最终数据展示。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值