最近的项目需要接触大数据处理相关的产品, 涉及了ETL, 数据挖掘和统计, 数据可视化等功能, 因此了解了一下这个行业的产品和工具. 最近看的产品主要是 Quantexa CDI(contextual decision intelligence), SAS, OneTrust GRC. 结合对数据业务的理解分析一下这类产品的设计和技术实现.
业务场景拆分
数据类产品从业务场景上, 可以分为
- 应对监管需求, 对自身业务的数据进行抽取和处理, 部署监管要求的规则, 生成符合监管要求的报告
- 科研类场景(例如医药,勘探), 对线上线下采集的数据进行收集, 分析和验证
- 广告推荐类产品, 根据数据进行决策
- 金融风控, 反洗钱, 打分, 决策, 预警等
- 工业自动化, 配合ERP, MES, IOT等系统进行数据的进一步分析和报告
不同的数据状态, 可以分为
- 静态数据分析, 一般针对日志, 交易流水等存量信息进行事故分析, 用于周期跑批, 问题复盘, 案件调查等业务场景
- 动态数据分析, 数据对象为实时的日志, 交易流水, 传感器记录等, 常用于业务监控和自动化, 例如网络安全的预警, 拦截, 交易的拦截, 风险预警等业务场景.
从纯粹的功能上, 可以分为以下几个功能模块:
- 输入适配
- 建模转换
- 分析处理
- 输出适配
- 行业逻辑
下面对各类分别说明
1. 输入适配
这部分对标 SAS 的 SAS/ACCESS,
数据输入相当于ETL中的E部分, 是整个系统的数据入口. 数据输入模块通过已有的或用户定义的规则, 将原始数据接入处理系统. 在数据产品中数据输入是重要性很高, 并且对于用户体验和产品整体性能影响很大的一个模块.
数据输入主要分为以下几部分内容