李宏毅机器学习教程：机器学习介绍和回归

最新推荐文章于 2023-08-05 15:14:50 发布

WYFWJYWJYWB

最新推荐文章于 2023-08-05 15:14:50 发布

阅读量184

点赞数

文章标签：机器学习回归人工智能

本文链接：https://blog.csdn.net/WYFQZJ/article/details/125729384

版权

0. 前言：

本博客整理的内容来自于Bilibili网站上的李宏毅老师课程录屏。
官方视频youtube地址为：https://www.youtube.com/playlist?list=PLJV_el3uVTsPy9oCRY30oBPNL；
官方课件地址为：http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html；
B站地址为：https://www.bilibili.com/video/BV1Ht411g7Ef

1.对机器学习的介绍：

1.1 Hand-crafted rule V.S. Machine learning

Machine learning（机器学习）：通过对数据的学习，让机器发现数据的规律，并完成一系列任务。
Hand-crafted rule：通过人工设置规则来完成任务，僵化且需要大量的人力。

1.2 机器学习三要素

如1.1所述，机器学习要从数据中发现规律（即发现函数关系）。我们通常通过以下三个步骤来找到合适的函数关系：
Step1：Define a set of functions
Step2：Define the goodness of function
Step3：Find a way to quickly pick the “best” solution
机器学习三要素分别对应以上三个步骤，即：模型（Define a set of functions）、策略（Define the goodness of function）、方法（Find a way to quickly pick the “best” solution）。

1.3机器学习概念解析：

（1）Regression（回归）：输出一个标量；Classification（分类）：输出虚拟变量或类别变量。
（2）Supervised Learning：所有的数据都有明确标注Y的取值；Semi-supervised Learning：有一部分数据明确标注了Y的取值，有一部分数据没有标注；Transfer Learning：有一部分无关数据；Unsupervised Learning：数据均未标注Y的取值，机器通过对数据特征的学习，自己完成对数据的分类等任务（如聚类研究 cluster）。
（3）Structured Learning：输出带有结构性的结果。例如，将一段音波数据输出为文字时，对文字的识别需要考虑我们的说话习惯（即需要考虑“一种结构”），此时便需要Structured Learning。
（4）Reinforcement Learning：Supervised Learning明确告知了机器每个数据点对应的Y值，但是Reinforcement Learning并不会告知机器正确的答案，只会给机器的预测表现进行打分。即，Learning from critics。此时，需要一个对手方给出critics用作训练，Alphago便是通过自己给自己critics的方式，通过无数盘自我模拟的博弈，进行的模型训练。

2：回归

2.1 重新回顾机器学习三要素

我们先假定（1）预测模型为线性模型，变量Xi的变化对Y的变化仅有线性的影响；（2）我们手中的变量数据，已经可以充分涵盖所有对Y有影响的渠道，不存在任何潜在的hidden variable对Y的预测有潜在的影响。

Step1 设定模型为：y_prediction=b+W X
Step2 通过最小化Loss function来减少损失 L(f)或叫L(W,b)，为sum((y-y_prediction)^2)
Step3 最小化Loss function，使用Gradient Descent 算法，估算出最合适的参数。

2.2 反思

但是：（1）我们一般很难在一开始就将主要的影响渠道全部发现，hidden variable的问题容易出现.（2）我们关心的是所训练模型的泛化能力（Generalization ablility），即对新数据的预测能力的好坏。（3）Gradient Descent未必能够到达全局最优点，有可能被困在局部最优点中。

因此：
Step1 要多做因子挖掘和函数形式尝试。新挖掘的因子可以用在交乘项上，也可以作为主回归变量。
Step2 加入正则项，形成新的Loss function
Step3 因为我们假定使用线性模型，GD肯定可以达到全局最优点，这里不需要额外担心。

每当我们发现新的解释因子、影响途径，或者需要对函数形式进行调整时，都需要从头开始重新训练。