基于云服务创建离线数据统计分析服务
离线数据统计分析
- 使用数据工厂、数据计算服务产品,可对多源数据(DB,FILE)整合分析,制定周期性的调度任务,提供任务监控及预警、数据统计分析等功能,可对接BI报表产品可视化分析。
使用京东云的数据工厂和数据计算服务,对于其他云平台可做参考。
数据工厂是京东云提供的一种数据移动服务产品,帮助用户实现数据自由流动。
京东云数据计算服务(Data Computing Service)是一个全托管、低使用成 本的云上数据仓库服务。
配置数据源,创建数据同步、工作流
1.登录京东云,点击云服务,选择“数据工厂”进入数据工厂控制台。
2.登录控制台后,进入数据工厂的“我的数据集”页面,点击“添加链接”。
3.在新增数据源页面,选择项目需要的数据库MySQL。前置条件:需要确保已有数据库表可连接。
4.填写MySQL链接,“连接名称”为“lab_mysql01”,按要求填写连接配置后,进行连接测试是否成功,点击确认“lab_mysql01”创建完成。
5.点击左侧的数据同步模块,进入“任务列表”页面。点击“创建”按钮,创建数据同步任务。
6.任务列表页面,填写“任务名称”为lab_od01。选择已有数据源MySQL类型数据库,进行连接测试。
7.按照项目要求,配置数据源端与数据目标端,点击确认“lab_od01”创建完成。这里需要准备两张数据库表,一个用于数据输入,一个用于数据输出。
8.在任务列表页面,点击右侧的单次执行,测试下任务能否成功。
9.前置条件:需确保已经在“数据计算服务”中创建数据表并上传数据,工作流运行结果输出到数据仓库,因此还需创建结果表。点击左侧的工作流模块,进入“作业定义”页面。点击“新建定义”按钮,创建工作流。
10.填写“任务名称”为“lab_wf01”,点击确定,创建工作流。
11.将“数据集成”图像模块拖拉下来,填写“任务名称”为“lab_di01”。按照项目要求,配置数据源端与数据目标端,点击确认创建完成。
- 将“SPARK”图像模块拖拉下来,弹出编辑菜单,填写“名称”为“lab_sp01”。按照项目要求,选择类型和编辑脚本,脚本填入“SELECT name,value FROM
goods
.province
”,点击确认创建完成。
13.点击右上角“保存”与“运行”,启动工作流。右键单击任务,可以对任务进行启动、编辑、查看日志、删除及重试。
14.可以根据项目需求,点击“设置”设置工作流执行策略。
15.点击左侧的运维中心模块,在任务列表页面查看,配置的工作流、数据同步等任务运行状态,以及是否成功。