- 目标
- 从一个数据集中提取有用的信息
- 方法
- 机器学习
- 统计方法
- 人工智能
- 问题定义
- 明确要解决的问题/提取的信息
- 对问题的假设进行抽象简化
- 进行一些数学化的处理
推荐系统
- 用户u,商品i
- 预测用户对商品i的感兴趣程度
- 二分类问题:p(y=1|u,i)
- 回归问题:Rating(i,u)
网页搜索
- 用户u,搜索词q,网页d
- 排序问题:rank(d|u,q)
舆情分析
- 美国大选,问卷分析
关联规则
- 频繁集查找
- 物品i,j之间是否存在强关联
- 沃尔玛:啤酒和尿布
社交网络
- 用户为顶点,好友关系为边
- 基于图的聚类,推荐
预测天气
- 预测机场一段时间内是否有雾
- 相关气象特征,分类与回归
- 数据预处