概念
利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策。
特点
- 在数据中寻找规律
- 用数据代替专家
- 经济驱动,数据变现
发展历史
- 基于专家经验
- 基于统计-分纬度统计
- 机器学习-在线学习
数据分析与机器学习
数据特点比较
行为数据 交易数据
海量数据 少量数据
全量分析 采样分析
业务问题比较
报告过去的事情 预测未来的事情
技术手段比较
用户驱动 数据驱动
交互式分析 自动进行知识分析
参与者比较
分析师 数据和算法
常用的算法
分类一
- 有监督学习:分类算法、回归算法
- 无监督学习:聚类
- 半监督学习
分类二
- 分类与回归
- 聚类
- 标注
分类三
- 生成模型
- 判别模型
框架
确定目标
- 业务需求
- 数据
- 特征工程
训练模型
- 定义模型
- 定义损失函数
- 优化算法
模型评估
- 交叉验证
- 效果评估