笔记：ML-LHY：李宏毅 (Hung-yi Lee) Machine Learning (2017,Spring) 总结

最新推荐文章于 2021-05-23 12:58:46 发布

snoopy_21

最新推荐文章于 2021-05-23 12:58:46 发布

阅读量992

点赞数 2

分类专栏：李宏毅ML课程笔记机器学习笔记

本文链接：https://blog.csdn.net/qq_29598161/article/details/109400612

版权

笔记同时被 3 个专栏收录

68 篇文章 7 订阅

订阅专栏

机器学习

32 篇文章 0 订阅

订阅专栏

李宏毅ML课程笔记

31 篇文章 4 订阅

订阅专栏

课程信息

首先感谢李宏毅 (Hung-yi Lee)老师在YouTube上的公开课程，作为从未接触机器学习的初学者来说，他的课程会比较生动有趣，易于理解。由于在学校上的机器学习课程部分内容没听太明白，看过理论李老师一部分课程后，觉得很有趣，索性全部看完，做此笔记记录。

在这里插入图片描述

课程列表：
16年：http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html
17年1：http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_1.html
17年2：http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html
19年：http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html
20年：http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

视频播放列表:
https://www.youtube.com/playlist?list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49

笔记(主要是2017年的视频)

ML-LHY-1 Regression

机器学习最简单的入门算法就是线性回归了，从这里出发开始学习机器学习
本节课主要介绍使用梯度下降方法求解线性回归
机器学习解决方法建模常规分为3个步骤：
1.确定目标函数，其中带有未知参数 $\theta$
2.如何表达参数 $\theta$ 对模型影像，即损失函数的确定，在参数 $\theta$ 确定的目标函数下与真实值的差异
3.找到最符合数据的目标函数的参数 $\theta$ ，例如使用：梯度下降
梯度下降概念和原理，正则化防止过拟合
pdf 视频

实验：ML-LHY-HW1_regression

ML-LHY-2 Where does the error come from?（Bias v.s. Variance）

本节课主要介绍偏差Bias和方差Variance
偏差Bias：样本点的均值m不等于真实均值，这之间的差就是Bias，偏差太大一般认为是过拟合
方差Variance：样本的方差不等于真实方差，就是求平均也不相等，方差太大一般认为是欠拟合
Bias 、Variance 和 model的关系
如何解决bias、variance
简单介绍了N折交叉验证
pdf 视频

ML-LHY-3 Gradient Descent

本节课主要介绍几种自适应学习速率算法
Adagard：多参数时，一次微分可能不好表示多个参数微分大小，从而使用二次微分进行比较，再用一种梯度累加方式模拟二次微分。即Adagard具备一定对之前梯度的记忆性。
SGD：虽然每次都只反映小样本的梯度，但是执行了很多次，也可以反映整体的梯度方向，而且在支持并行计算的GPU上速度更快。
SGDM：引入Movement，即对整个训练周期具有性整体趋势的长记忆。
RMSProp：对Adagard的改进，通过乘以 $\alpha<0$ 的数来防止初始化梯度过大导致卡住。
Adam：对SGDM和RMSProp进行整合，目前常用的算法就是Adam，但是初始学习率设置过大，容易导致局部最优
还有一些理论化知识，从另一种数学角度解释梯度下降过程，Feature Scaling概念
Feature Scaling：目的是消除特征之间的量纲影响，可以使用一个统一的学习率。比如对输入数据进行白化(Whiten)，也就是Z-Score标准化，还有现在常用Batch Normalization，也是由达到Feature Scaling目的。
pdf 视频

ML-LHY-4 Classification（Probabilistic Generative Model）

这节课主要介绍使用概率论方法求解分类问题，核心就是假设分布为高斯分布，通过训练数据进行最大似然求出分布的参数
朴素贝叶斯方法，前提是各个特征独立
pdf 视频

ML-LHY-5 Logistic Regression

这节课主要介绍逻辑回归(Logistic Regression)以及多类别的逻辑回归(Softmax Regression)
Logistic Regression和Linear Regression关系以及为什么Logistic Regression不能用Squared Error
Logistic Regression是一种Discriminative 方法和上节课假设高斯分布求概率的Generative 做比较
Multi-class Classification问题，即Softmax Regression
从Logistic Regression的限制到Logistic Regression的连接，再到Neural Network
pdf 视频

实验：ML-LHY-HW2_classification(分类、逻辑回归)

ML-LHY-6 Brief Introduction of Deep Learning

这节课主要介绍介绍了深度学习的发展，神经网络概念，层的作用
pdf 视频

ML-LHY-7 Backpropagation

这节课主要说了神经网络的一种求梯度方式：反向传播。原来只理解在链式求导上，而这节课阐述了反向传播实际也是在反向求一个神经网络
pdf 视频

ML-LHY-8: “Hello world” of deep learning(digits detection)

这节课主要介绍使用keras实现一个数字(mnist)分类实验
SGD中batch_size(min-batch)的意义
pdf 视频

ML-LHY-9: Tips for Training DNN

这节课从解决2个方面问题：

在training data上表现不好，没有train好，解决方面有：激活函数(主要解决梯度消失)、学习率(主要解决损失变化很大情况)
激活函数：sigmoid激活函数会导致梯度消失问题，即在靠近输入层的参数会有更小的梯度，所以更新的更慢。相反，而靠近输出层的参数会有更大的参数，更新的更快。使用ReLU可以一定程度上解决梯度消失问题，同时由于左右两边不一样，多个组合就能进行非线性表示。还有更强大的Maxout。
学习率：在ML-LHY-3 Gradient Descent 中很详细介绍了各种学习率算法：Adagrad、SGDM、RMSProp、Adam
在testing data上表现不好，overfitting，解决方面有：Dropout(随机丢弃神经元)、正则项、early stopping
Dropout：设置重重障碍(Dropout)，所以用了Dropout的训练结果肯定比没用的要差。但是，如果用了Dropout也得到还不错的结果，那么在测试的时候应该会比训练时好很多。
解释ensemble：简单来说，Ensemble就是组合多种不同的模型进行学习的方式。在ML-LHY-22: Ensemble更详细介绍
pdf 视频

ML-LHY-10: Convolutional Neural Network

这节课开始讲深度学习中重要的网络：
卷积神经网络(Convolutional Neural Network)CNN。
理解卷积操作在神经网络中的作用，理解CNN在做什么，以及CNN的可视化。
pdf 视频
补充: GNN(Graph Neural Network)

ML-LHY-11: Why Deep Learning?

本节课主要讲深度学习的深是什么含义，使用模块解释层的概念。解释为什么深度学习在图像和语音任务上表现很好。
pdf 视频

ML-LHY-12：Semi-supervised

这节课主要介绍半监督机器学习方法，首先解释为什么半监督有用，在概率分布的生成式模型中使用半监督算法(EM算法)
以及self-training和他们对比
剩下一半介绍两种正则方法，Entropy-based Regularization和Smoothness Assumption，前者基于信息论稳定理论，后者基于图结构连通(对近似进行RBF)
pdf 视频

ML-LHY-13：Unsupervised Learning - Linear Methods

介绍了无监督学习
本文主要介绍Dimension Reduction，顺便介绍了聚类算法
维度缩减主要介绍经典的PCA算法和SVD算法，以及他们之间的关系
如何使用NN进行维度缩减（模拟PCA）
PCA/SVG在推荐系统，文本处理上的应用
pdf 视频

ML-LHY-14: Unsupervised Learning - Word Embedding

这节课主要介绍Word Embedding，有2种方法
1.Count based：和LSA类似，用GD求隐含向量表示。
2. Prediction based：利用文章中句子的词语顺序作为标签，训练一个神经网络。但是顺序是存在文章中的，这是无监督学习
pdf 视频

ML-LHY-15: Unsupervised Learning - Neighbor Embedding

介绍了3中非线性降维方法
LLE基于相邻点的关系，然后在低维空间保持这种关系
Laplacian Eigenmaps基于图结构的关系，然后在低维空间保持这种关系
t-SNE基于分布的关系，然后在低维空间保持这种关系，巧妙利用不同相似度函数实现拉开不同类
pdf 视频

ML-LHY-16: Unsupervised Learning - Auto-encoder

更详细介绍了Auto-encoder
Auto-encoder在文本与图像的应用
CNN上的Auto-encoder
pdf 视频

ML-LHY-17/18: Unsupervised Learning - Deep Generative Model

主要介绍无监督学习中的生成模型。
传统利用RNN的Pixel RNN
经典的Auto-Decoder和VAE(变分自动编码器)，以及解释在概率上的VAE做法，和存NN的联系
最近比较流行的GAN
pdf 视频1 视频2

ML-LHY-19: Transfer Learning

主要介绍迁移学习相关任务：
1.Target Data有标签、Source Data有标签可以进行Model Fine-tuning，微调的主要方式是Layer Transfer。还可以进行Multitask Learning。
2.Target Data无标签、Source Data有标签可以进行Domain-adversarial training，希望经过一个Domain classifier和原来数字classifier进行联合，使得domain的特性消除，使得不同domain的image混在一起。也可以进行Zero-shot learning，即在Data的标签都是属性，对于从未见过的类别，我们可以识别有哪些属性
3.Target Data有标签、Source Data无标签，可以进行Self-taught learning，其实目的就是在Source Data做Auto Encoder，提取一个好的feature extractor。应用在Target Data上。
4,Target Data无标签、Source Data无标签可以进行Self-taught Clustering，也是在Source Data做Auto Encoder，提取一个好的feature extractor。应用在Target Data上。任务是做聚类。
pdf 视频

ML-LHY-20: Support Vector Machine (SVM)

主要从Hinge Loss 和 Kernel Method 入门介绍SVM
Hinge Loss : 从平方损失Square Loss角度来说，对于分类问题不是很好的损失函数，然后和交叉熵损失Cross Entropy Loss做笔记，其实Hinge Loss就是Cross Entropy Loss的鲁棒表示。
Kernel Method：这一过程就是输入 $x$ ，输出 $\phi(x)$ 。然后在高维空间做内积，即 $z)=\phi(x) \cdot \phi(z)$ 。而我们知道，在高维空间做内积可能运算量是巨大的。然后又发现高维空间内积的形式其实可以在低维空间中表示。
pdf 视频

ML-LHY-21: Recurrent Neural Network(RNN)

本节课介绍了3中传统词汇编码方式：1-of-N encoding、Beyond 1-of-N encoding、Word hashing
RNN概念即原理
LSTM、GRU原理
RNN训练
pdf 视频1-RNN 视频2-LSTM

ML-LHY-22: Ensemble

介绍2种集成学习方法
1.Bagging：使用情况：复杂model，容易过拟合，比如 Decision Tree。把训练数据拆分成多份，各种训练处一个model，测试时用多个model输出取平均。
2.Boosting：使用情况：简单model，容易欠拟合。训练多个互补的分类器，测试时也是多个分类器加权累加得到的结果。
组合多个model的Stacking方法
pdf 视频

ML-LHY-23: Deep Reinforcement Learning

介绍强化学习的概念
介绍Policy-based Approach算法，关键在于如何理解用采样近似求期望。
pdf 视频1 视频2

总结

业余时间花了4个月看的视频，做的笔记。有许多地方不是很明白。对于偏统计学部分的机器学习还未掌握，李老师这门17年课程比较少讲统计学那边的理论，比如支持向量机基础部分，EM算法，马尔科夫模型等，希望后面有时间自己再补充。只能说个人看完一遍课程也只是对机器学习泛泛的了解。很多笔记以前记得，过了几个月再打开已经不能理解其中意思了。所以还是要多复习，多实践。