笔记:ML-LHY: 李宏毅 (Hung-yi Lee) Machine Learning (2017,Spring) 总结

课程信息

首先感谢李宏毅 (Hung-yi Lee)老师YouTube上的公开课程,作为从未接触机器学习的初学者来说,他的课程会比较生动有趣,易于理解。由于在学校上的机器学习课程部分内容没听太明白,看过理论李老师一部分课程后,觉得很有趣,索性全部看完,做此笔记记录。

在这里插入图片描述

课程列表:
16年:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html
17年1:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_1.html
17年2:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html
19年:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html
20年:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html

视频播放列表:
https://www.youtube.com/playlist?list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49

笔记(主要是2017年的视频)

ML-LHY-1 Regression

机器学习最简单的入门算法就是线性回归了,从这里出发开始学习机器学习
本节课主要介绍使用梯度下降方法求解线性回归
机器学习解决方法建模常规分为3个步骤:
1.确定目标函数,其中带有未知参数 θ \theta θ
2.如何表达参数 θ \theta θ对模型影像,即损失函数的确定,在参数 θ \theta θ确定的目标函数下与真实值的差异
3.找到最符合数据的目标函数的参数 θ \theta θ,例如使用:梯度下降
梯度下降概念和原理,正则化防止过拟合
pdf 视频

实验:ML-LHY-HW1_regression


ML-LHY-2 Where does the error come from?(Bias v.s. Variance)

本节课主要介绍偏差Bias和方差Variance
偏差Bias:样本点的均值m不等于真实均值,这之间的差就是Bias,偏差太大一般认为是过拟合
方差Variance:样本的方差不等于真实方差,就是求平均也不相等,方差太大一般认为是欠拟合
Bias 、Variance 和 model的关系
如何解决bias、variance
简单介绍了N折交叉验证
pdf 视频


ML-LHY-3 Gradient Descent

本节课主要介绍几种自适应学习速率算法
Adagard:多参数时,一次微分可能不好表示多个参数微分大小,从而使用二次微分进行比较,再用一种梯度累加方式模拟二次微分。即Adagard具备一定对之前梯度的记忆性。
SGD:虽然每次都只反映小样本的梯度,但是执行了很多次,也可以反映整体的梯度方向,而且在支持并行计算的GPU上速度更快。
SGDM:引入Movement,即对整个训练周期具有性整体趋势的长记忆。
RMSProp:对Adagard的改进,通过乘以 α < 0 \alpha<0 α<0的数来防止初始化梯度过大导致卡住。
Adam:对SGDM和RMSProp进行整合,目前常用的算法就是Adam,但是初始学习率设置过大,容易导致局部最优
还有一些理论化知识,从另一种数学角度解释梯度下降过程,Feature Scaling概念
Feature Scaling:目的是消除特征之间的量纲影响,可以使用一个统一的学习率。比如对输入数据进行白化(Whiten),也就是Z-Score标准化,还有现在常用Batch Normalization,也是由达到Feature Scaling目的。
pdf 视频


ML-LHY-4 Classification(Probabilistic Generative Model)

这节课主要介绍使用概率论方法求解分类问题,核心就是假设分布为高斯分布,通过训练数据进行最大似然求出分布的参数
朴素贝叶斯方法,前提是各个特征独立
pdf 视频


ML-LHY-5 Logistic Regression

这节课主要介绍 逻辑回归(Logistic Regression)以及多类别的逻辑回归(Softmax Regression)
Logistic Regression和Linear Regression关系以及为什么Logistic Regression不能用Squared Error
Logistic Regression是一种Discriminative 方法和上节课假设高斯分布求概率的Generative 做比较
Multi-class Classification问题,即Softmax Regression
从Logistic Regression的限制到Logistic Regression的连接,再到Neural Network
pdf 视频

实验:ML-LHY-HW2_classification(分类、逻辑回归)


ML-LHY-6 Brief Introduction of Deep Learning

这节课主要介绍 介绍了深度学习的发展,神经网络概念,层的作用
pdf 视频


ML-LHY-7 Backpropagation

这节课主要说了神经网络的一种求梯度方式:反向传播。原来只理解在链式求导上,而这节课阐述了反向传播实际也是在反向求一个神经网络
pdf 视频


ML-LHY-8: “Hello world” of deep learning(digits detection)

这节课主要介绍使用keras实现一个数字(mnist)分类实验
SGD中batch_size(min-batch)的意义
pdf 视频


ML-LHY-9: Tips for Training DNN

这节课从解决2个方面问题:

  1. 在training data上表现不好,没有train好,解决方面有:激活函数(主要解决梯度消失)、学习率(主要解决损失变化很大情况)
    激活函数:sigmoid激活函数会导致梯度消失问题,即在靠近输入层的参数会有更小的梯度,所以更新的更慢。相反,而靠近输出层的参数会有更大的参数,更新的更快。使用ReLU可以一定程度上解决梯度消失问题,同时由于左右两边不一样,多个组合就能进行非线性表示。还有更强大的Maxout。
    学习率:在ML-LHY-3 Gradient Descent 中很详细介绍了各种学习率算法:Adagrad、SGDM、RMSPropAdam
  2. 在testing data上表现不好,overfitting,解决方面有:Dropout(随机丢弃神经元)、正则项、early stopping
    Dropout:设置重重障碍(Dropout),所以用了Dropout的训练结果肯定比没用的要差。但是,如果用了Dropout也得到还不错的结果,那么在测试的时候应该会比训练时好很多。
    解释ensemble:简单来说,Ensemble就是组合多种不同的模型进行学习的方式。在ML-LHY-22: Ensemble更详细介绍
    pdf 视频

ML-LHY-10: Convolutional Neural Network

这节课开始讲深度学习中重要的网络:
卷积神经网络(Convolutional Neural Network)CNN。
理解卷积操作在神经网络中的作用,理解CNN在做什么,以及CNN的可视化。
pdf 视频
补充: GNN(Graph Neural Network)


ML-LHY-11: Why Deep Learning?

本节课主要讲深度学习的深是什么含义,使用模块解释层的概念。解释为什么深度学习在图像和语音任务上表现很好。
pdf 视频


ML-LHY-12:Semi-supervised

这节课主要介绍半监督机器学习方法,首先解释为什么半监督有用,在概率分布的生成式模型中使用半监督算法(EM算法)
以及self-training和他们对比
剩下一半介绍两种正则方法,Entropy-based Regularization和Smoothness Assumption,前者基于信息论稳定理论,后者基于图结构连通(对近似进行RBF)
pdf 视频


ML-LHY-13:Unsupervised Learning - Linear Methods

介绍了无监督学习
本文主要介绍Dimension Reduction,顺便介绍了聚类算法
维度缩减主要介绍经典的PCA算法和SVD算法,以及他们之间的关系
如何使用NN进行维度缩减(模拟PCA)
PCA/SVG在推荐系统,文本处理上的应用
pdf 视频


ML-LHY-14: Unsupervised Learning - Word Embedding

这节课主要介绍Word Embedding,有2种方法
1.Count based:和LSA类似,用GD求隐含向量表示。
2. Prediction based:利用文章中句子的词语顺序作为标签,训练一个神经网络。但是顺序是存在文章中的,这是无监督学习
pdf 视频


ML-LHY-15: Unsupervised Learning - Neighbor Embedding

介绍了3中非线性降维方法
LLE基于相邻点的关系,然后在低维空间保持这种关系
Laplacian Eigenmaps基于图结构的关系,然后在低维空间保持这种关系
t-SNE基于分布的关系,然后在低维空间保持这种关系,巧妙利用不同相似度函数实现拉开不同类
pdf 视频


ML-LHY-16: Unsupervised Learning - Auto-encoder

更详细介绍了Auto-encoder
Auto-encoder在文本与图像的应用
CNN上的Auto-encoder
pdf 视频


ML-LHY-17/18: Unsupervised Learning - Deep Generative Model

主要介绍无监督学习中的生成模型。
传统利用RNN的Pixel RNN
经典的Auto-Decoder和VAE(变分自动编码器),以及解释在概率上的VAE做法,和存NN的联系
最近比较流行的GAN
pdf 视频1 视频2


ML-LHY-19: Transfer Learning

主要介绍迁移学习相关任务:
1.Target Data有标签、Source Data有标签可以进行Model Fine-tuning,微调的主要方式是Layer Transfer。还可以进行Multitask Learning。
2.Target Data无标签、Source Data有标签可以进行Domain-adversarial training,希望经过一个Domain classifier和原来数字classifier进行联合,使得domain的特性消除,使得不同domain的image混在一起。也可以进行Zero-shot learning,即在Data的标签都是属性,对于从未见过的类别,我们可以识别有哪些属性
3.Target Data有标签、Source Data无标签,可以进行Self-taught learning,其实目的就是在Source Data做Auto Encoder,提取一个好的feature extractor。应用在Target Data上。
4,Target Data无标签、Source Data无标签可以进行Self-taught Clustering,也是在Source Data做Auto Encoder,提取一个好的feature extractor。应用在Target Data上。任务是做聚类。
pdf 视频


ML-LHY-20: Support Vector Machine (SVM)

主要从Hinge Loss 和 Kernel Method 入门介绍SVM
Hinge Loss : 从平方损失Square Loss角度来说,对于分类问题不是很好的损失函数,然后和交叉熵损失Cross Entropy Loss做笔记,其实Hinge Loss就是Cross Entropy Loss的鲁棒表示。
Kernel Method:这一过程就是输入 x x x,输出 ϕ ( x ) \phi(x) ϕ(x)。然后在高维空间做内积,即 K ( x , z ) = ϕ ( x ) ⋅ ϕ ( z ) K(x, z)=\phi(x) \cdot \phi(z) K(x,z)=ϕ(x)ϕ(z)。而我们知道,在高维空间做内积可能运算量是巨大的。然后又发现高维空间内积的形式其实可以在低维空间中表示。
pdf 视频


ML-LHY-21: Recurrent Neural Network(RNN)

本节课介绍了3中传统词汇编码方式:1-of-N encoding、Beyond 1-of-N encoding、Word hashing
RNN概念即原理
LSTM、GRU原理
RNN训练
pdf 视频1-RNN 视频2-LSTM


ML-LHY-22: Ensemble

介绍2种集成学习方法
1.Bagging:使用情况:复杂model,容易过拟合,比如 Decision Tree。把训练数据拆分成多份,各种训练处一个model,测试时用多个model输出取平均。
2.Boosting:使用情况:简单model,容易欠拟合。训练多个互补的分类器,测试时也是多个分类器加权累加得到的结果。
组合多个model的Stacking方法
pdf 视频


ML-LHY-23: Deep Reinforcement Learning

介绍强化学习的概念
介绍Policy-based Approach算法,关键在于如何理解用采样近似求期望。
pdf 视频1 视频2

总结

业余时间花了4个月看的视频,做的笔记。有许多地方不是很明白。对于偏统计学部分的机器学习还未掌握,李老师这门17年课程比较少讲统计学那边的理论,比如支持向量机基础部分,EM算法,马尔科夫模型等,希望后面有时间自己再补充。只能说个人看完一遍课程也只是对机器学习泛泛的了解。很多笔记以前记得,过了几个月再打开已经不能理解其中意思了。所以还是要多复习,多实践。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值