机器学习
机器学习,顾名思义,机器具备有学习的能力。具体来讲,机器学习就是让机器具备找一个函数的能力。
常见的任务:回归、分类、结构化学习
回归:要找的函数的输出是一个数值(假设机器要预测未来某一个 时间的 PM2.5 的数值。机器要找一个函数 f,其输入是可能是种种跟预测 PM2.5 有关的指数,包括今天的 PM2.5 的数值、平均温度、平均的臭氧浓度等等,输出是明天中午的 PM2.5 的数值。)
分类:要找的函数的输出是从设定好的选项里面选择一个当作输出(邮箱账户里面有一个函数,该函数可以检测一封邮件是否为垃圾邮件。分类不一定只有两个选项,也可以有多个选项。)
结构化学习:机器不只是要做选择题或输出一个数字,而是产生一个有结构的物体。(让机器画一张图,写一篇文章。)
案例学习
以视频的点击次数预测为例介绍下机器学习的运作过程。找一个函数,该函数的输入是后台的信息,输出是隔天这个频道会有的总观看的次数。
机器学习找函数的步骤
1. 模型选择(Model Selection)
- 定义模型:首先,你需要选择一个模型的形式,也就是一个带有未知参数的函数 。这个函数 能够用来预测未来的观测值。例如,在预测视频点击次数的问题中,你可以选择一个简单的线性模型 ,其中 表示明天的观看次数, 表示今天的观看次数,而 和 是待确定的参数。
- 参数:在这个模型中, 和 是未知的参数。它们需要通过数据来估计。 称为偏置(bias),称为权重(weight)。
2. 定义损失函数(Loss Function Definition)
- 损失函数:定义一个损失函数 ,它衡量了模型预测值与实际观测值之间的差距。损失函数的输入是模型的参数,如 。损失函数的目的是评价给定参数设置下的模型性能。
- 计算损失:使用训练数据来计算损失。例如,如果假设 b=500 和 w=1,那么预测函数变为 。然后,可以使用过去的数据点来计算这个预测函数的损失值。
3. 参数优化(Parameter Optimization)
- 优化目标:目标是找到一组参数 和 ,使得损失函数 的值最小化。换句话说,我们需要找到最佳的 和使得 达到最小。
- 优化方法:可以使用各种优化算法来寻找最佳参数。常见的方法包括梯度下降法,它通过计算损失函数相对于参数的梯度来迭代更新参数,以逐渐减小损失值。