数据开发
数据开发涉及到的产品能力主要包括三部分:离线开发、实时开发和算法开发。
离线开发:主要包括离线数据的加工、发布、运维管理,以及数据分析、数据探索、在线查询和即席分析相关的工作。
实时开发:主要涉及到数据的实时接入和实时处理,简化流数据的加工处理过程。
算法开发:提供简单易用的可视化拖拽和Notebook方式来实现数据价值的深度挖掘。
数据计算的四种类型
(1)批计算
用于批量数据高延迟处理场景,如离线数仓的加工、大规模数据的清洗和挖掘。目前大部分采用MapReduce、Hive、Spark等计算框架处理,其特点就是数据吞吐量大、延时高,适合人机交互少的场景。
(2)流计算
也叫实时计算,对数据的加工和应用有较高的实时性要求,常见于监控告警场景,例如实时分析网络时间,当有异常时需要及时接入处理。例如案例双十一可视化大屏实时数据展示。技术栈FLink、Storm、Spark Streaming等。
常用场景:【流式ETL】、【流式报表】实时采集实时监控、【监控预警】、【在线系统】
(3)在线查询
主要用户数据结果的在线查询、过滤和筛选等,如数据检索、条件过滤等。根据不通的场景有多种不通的选择
a.营销场景对相应延时高的,一般采用缓存型的存储计算,如Redis.
b.对相应时间要求正常的可以选择HBase、MySQL
c.需要进行条件过滤和检索的,可以选择ElasticSearch
常用场景:【画像服务】征信查询、【搜索的应用场景】文档搜索、商品搜索、【圈人场景】通过特定的人快速筛选出业务所需要的群体。
(4)即席分析
主要用于分析型场景和经验统计。一般80%的企业需要在线查询和即席分析。争对【不同的维度】进行分析。技术栈Kylin、Impala、Click House、HAWK、AnalyticDB等。
快速的进行数据的多维度交叉分析,大部分时聚合操作,如group by 、sum、avg、count等。
以上区别如下:
以下的内容有很多看不懂了...............
离线开发
1、作业调度
2、基线控制
3、异构存储
4、代码校验
5、多环境级联
6、推荐依赖
实时开发
1、元数据管理
2、SQL驱动
3、组件化开发
算法开发
1、可视化建模
2、NoteBook建模
3、数据集管理
4、核心算法组件
5、多算法框架