1. 概念
机器学习中的任务主要分为两大类,判别式(理解类任务)和生成式(生成类任务)
- 理解类任务: P ( y ∣ x ) P(y|x) P(y∣x),给定x求y的概率密度,对于新的样本 x ~ \widetilde x x ,预测 y ~ \widetilde y y
- 生成类任务:估计数据本身的概率密度 P ( x ) P(x) P(x),然后从这个分布中采样产生新的数据 x ~ \widetilde x x
小结:理解类任务相对确定(有标签),生成类任务的衡量指标相对不确定
- 难点:样本数量的有限性,难以预测没见过的样本
- 解决:加入先验知识,限制搜索空间,使得能够在计算机的计算范围内。
- 举例:实际上我们设计的模型就是对搜索加上限制条件。例如GPT模型中加入的限制是相邻的词意思相近;GAN模型加入的限制是数据点的分布可以通过正太分布生成