笔记
- 特征提取-主成分分析(Principle Component Analysis, PCA)
主成分分析本质是寻找使方差最大的方向,并在该方向投影。
Mooc上的清楚一点:
PCA算法:
更正:
总结:如果特征数量大且可能存在冗余,用PCA降维往往能收到好的效果,这也就是PCA在机器学习中被广泛运用的原因。
这带来一个问题:PCA需要降维到什么程度?即Y的维度M如何确定?
采取能量百分率准则:
一般选取 - 特征选择:自适应提升算法(Adaptive Boosting, AdaBoost)
核心思想:融合一些弱分类器获得强分类器
ADABOOST的核心流程: 先用一部分特征训练-些较弱的分类器然后再将这些较弱的分类器逐步提升为强的分类器。ADABOOST的核心是调整训练样本的分布,使得先前分类器做错的训练样本在后续学习中获得更多的关注,然后基于调整后的样本分布来训练下一个分类器。最后再用权重系数将获得的各个弱分类器组合起来形成强分类器。
自适应提升算法(AdaBoost)
- 目标检测(RCNN, FCN)
RCNN: Regional CNN
Region Proposal: 目标候选区域
Selective Search: 产生RP
- 概率分类法概述
- 概率密度估计-朴素贝叶斯分类器(Naïve Bayesian Classifier)
- 概率密度估计-高斯概率密度估计
- 高斯混合模型(Gaussian Mixture Model)
实际数据是两个或者多个高斯分布的线性叠加
假设:
- EM算法(高斯混合模型和K-均值算法)
高斯混合模型
非凸函数无法求全局极值,只能求局部极值
这里主要讲EM算法,它只对某一类局部极值问题可解,优点:①不需要调任何参数,都是收敛的。②编程简单。③理论优美。
EM算法:固定一个求另一个,不断循环迭代
高斯混合模型的EM算法(Expectation-Maximization)
另一个EM算法的例子:K-均值聚类(K-means Clustering)
如何让机器自动聚类?
Mooc和课堂上的K-均值算法步骤有些许差别
K-均值算法求得的是目标函数E的局部极值
- EM算法收敛性证明
- 语音识别(Speech Recognition) 隐含马尔科夫过程
连续行为的识别
① 隐含马尔科夫过程(Hidden Markov Model, HMM)(后一个状态只与前一个状态有关)②递归神经网络(Recurrent Neural Networks, RNN)
维特比算法(Viterbi Algorithm)
问题二是给O打标签的操作
这之后求B的过程,在b站上少了这部分,下面是老师的笔记
- 大词汇量连续语音识别(LVCSR)
这一小节可以说是没听懂 - 循环神经网络RNN和LSTM
- 人工智能中的哲学
测验
1.使用K均值聚类算法得到3个聚类中心:(2,4),(3,3)(4,-2),现输入数据((1,-1),那么这个输入的数据属于第几类
A.第二类
B.第一类
C.不一定
D.第三类
正确答案:D
2.K-means算法()能收敛,对于无标签的数据X,经过n次聚类后,优化目标函数值()的一组结果是最优的。
A.一定,最大
B.不一定,最小
C.一定,最小
D.不一定,最大
正确答案:C
3.假设有A个输入的样本,它的特征维度是B,那么在设置压缩后的维度M时,以下哪些操作是合理的()
A.M=0.1A
B.根据能量百分率准则,保留占据1%能量的M值
C.根据能量百分率准则,保留占据99%能量的M值
D.M=0.1B
正确答案:C、D
4.K均值算法求得的是目标函数的全局极值
A×
B.√
正确答案:A
至此,我的机器学习(浙大课程b站)学习之旅就结束啦,当然这也只是一个开始,是一个终点也是一个起点。机器学习还有很多很多知识等待我去探索发现。其实我的笔记中可以看出,一开始的课程还是能跟上的,后来就逐渐听不太懂了,主要以课堂上老师讲解的过程为主进行截图,而且我没有进行实际的编程,只是在学习理论。相信编程和理论相结合一定能更好地理解其中的知识,所以这次学习之旅也只是一个开始罢了。
《机器学习——从入门到入门后》
附上我看网课时候笑得不行的一张截图