思维导图,来源与一个知乎大佬,DASOU,个人跟随他的思路学习的笔记
1.基础知识
2.机器学习理论入门
3.机器学习实战入门
4.深度学习理论入门
5.深度学习实战入门
v2-d2175e149992cf82b65438e7fe9725ca_r.jpg (3383×6748) (zhimg.com)
基础知识需补充的部分
1.范数 2.梯度 3.概率论 4.激活函数
张量的概念:在深度学习里,Tensor实际上就是一个多维数组,Tensor的目的是能够创造更高维度的矩阵、向量笔记 | 什么是张量(tensor)& 深度学习 - 知乎 (zhihu.com)
范数的概念,用来度量某个向量空间(或矩阵)中的每个向量的长度或大小
范数定义,是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,范数是一个函数,是矢量空间内的所有矢量赋予非零的正长度或大小,即所有方向向量的平方和开(向量个数的)的根号
范数在机器学习中,在诸多机器学习模型中,比如压缩感知 (compressive sensing),我们很多时候希望最小化向量的 l0 -范数,原因如下
在机器学习的诸多方法中,假设给定了一个比较小的数据集让我们来做训练,我们常常遇到的问题可能就是过拟合 (over-fitting) 了,即训练出来的模型可能将数据中隐含的噪声和毫无关系的特征也表征出来。
为了避免类似的过拟合问题,一种解决方法是在 (机器学习模型的) 损失函数中加入正则项,比如用 l1 -范数表示的正则项,只要使得 l1 -范数的数值尽可能变小,就能够让我们期望的解变成一个稀疏解 (即解的很多元素为0)。
详细来源:如何通俗易懂地解释「范数」? - 知乎 (zhihu.com)
激活函数
激活函数(Activation Function)是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。在神经元中,输入的input经过一系列加权求和后作用于另一个函数,这个函数就是这里的激活函数
激活函数可以分为线性激活函数(线性方程控制输入到输出的映射,如f(x)=x等)以及非线性激活函数(非线性方程控制输入到输出的映射,比如Sigmoid、Tanh、ReLU、LReLU、PReLU、Swish 等)
因为神经网络中每一层的输入输出都是一个线性求和的过程,下一层的输出只是承接了上一层输入函数的线性变换,所以如果没有激活函数,那么无论你构造的神经网络多么复杂,有多少层,最后的输出都是输入的线性组合,纯粹的线性组合并不能够解决更为复杂的问题。而引入激活函数之后,我们会发现常见的激活函数都是非线性的,因此也会给神经元引入非线性元素,使得神经网络可以逼近其他的任何非线性函数,这样可以使得神经网络应用到更多非线性模型中。
线性回归
线性回归即线性拟合,就是要通过一堆特征点总结出一条具有直观意义、并能帮助你以后预测其他点的线的过程,目标最终是得到一个 y = θ 1 + θ 2 x 的函数,即通过学习获得 截距θ 1 和斜率 θ 2
拟合与过拟合
过拟合,拟合了过多的点,在训练集上很好,在测试集上不好
大部分通过线性回归拟合的线都是一阶或者二阶的
奥卡姆剃刀:越是高阶的多项式越不常见(奥卡姆剃刀追寻的实际中越常见即是越好的)
梯度与梯度下降
接着上面截图的内容
详细讲解来源
(9条消息) 深度学习之:详解梯度下降——什么是梯度,梯度和偏导数的联系,如何更新梯度_暖仔会飞的博客-CSDN博客
概率论部分
1.笔记《概率论》学习笔记 - 知乎 (zhihu.com)
2.跟着B站视频看笔记快速过一遍太会讲了!清华大神只用两小时就能教会你高数【概率论基础】,内容通俗易懂简直不要太简单!—人工智能/高等数学/机器学习_哔哩哔哩_bilibili
较难:贝叶斯定理与似然
贝叶斯定理推导(Bayes's Theorem) - HuZihu - 博客园 (cnblogs.com)
似然和概率是不一样的,概率表达了在给定参数时X=x的可能性,似然表示的是在给定样本X=x时,参数的可能性;通过极大似然估计来确定参数,选择最好的参数(原理概率最大的事件最有可能发生,即最好的参数对应概率最大),最大似然函数求的是关于参数的极值点
极大似然估计就是为了选出最符合输入数据的参数
pthon数据分析
【人工智能必备:Python数据分析】AI博士半天就教会我大学一直没学会的利用Python进行数据分析!怎么可以讲的如此通俗,太强了!_哔哩哔哩_bilibili
统计学习笔记
1.统计学习概论
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的学科,也称为统计机器学习,
统计学习的对象是数据,从数据出发,提取数据的特征,抽象出数据的类型,发现数据中的知识,又回到对数据的分析和预测中去,
实现统计学习方法的步骤:
1.得到一个有限的训练数据集合
2.确定包含所有可能的模型的假设空间,即学习模型的集合
3.确定模型选择的准则,即学习的策略
4.实现求解最优模型的算法,即学习的算法
5.通过学习方法选择最优模型
6.利用学习的最优模型对新数据进行预测或分析
统计学习的的三要素为:模型(model) 策略(strategy)· 算法(algorithm)
模型,就是所有要学习的条件概率分布或决策函数,数据构成假设空间,在这个假设空间中包含所有可能的条件概率分布或者决策函数,每一个条件概率分布或者决策函数对应一个模型,那么这个样本空间中的模型个数有无数个。
策略,即从假设空间中挑选出参数最优的模型的准则。模型的分类或预测结果与实际情况的误差(损失函数)越小,模型就越好。
算法,是指学习模型的具体计算方法,统计学习的物体归结于最优化问题,统计学习的算法成为求解最优化问题的算法
策略部分是挑选最优模型,那么如何挑选,首先进行
模型评估和模型选择
1.训练误差和测试误差
当损失函数给定是,基于损失函数模型的训练误差和测试误差就是学习方法的评估准则
训练误差是训练数据集的平均损失,测试误差是测试数据集的平均损失
2.过拟合和模型选择、过拟合是指学习是选择的模型所包含的参数过多,以至于这一模型对已知的数据预测得很好,但对未知数据预测的很差的现象;模型选择旨在避免过拟合并提高模型的预测能力
正则化和交叉验证
1.正则化,模型选择的典型方法是正则化,正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化或者罚项。正则化一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大,正则化可以取不同的形式
正则化符合奥卡姆剃刀原理,奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是i最好的模型,也就是应该选择的模型。从贝叶斯估计的角度来看,正则化项对应与模型的先验概率,可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率
2.交叉验证,另一种常用的模型选择方法时交叉验证,如果给定的样本充足,进行模型选择的简单方法时随机地将数据集分为三部分,分别是训练集,测试集,验证集,训练集应用于训练模型,测试应用于最学习方法的评估,在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型
泛化能力
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质,现实中采用的最多的方法是通过测试误差来评价泛化能力,但是这种方法太依赖测试集,数据集有限,可能不太可靠,因此引入泛化误差,泛化误差反映了学习方法的泛化能力,事实上,泛化误差就是所学习到的模型的期望风险
生成模型和判别模型
监督学习的任务就是学习应该模型,应用这模型,对给定的输入预测相应的输出,这个模型的一般形式为决策函数或者条件概率分布
监督学习方法分为生成方法和判别方法,对应的模型是生成模型和判别模型
监督学习应用
主要应用三个方面:分类问题,标注问题,回归问题
监督学习就是教会计算机做某件事,无监督学习就是计算机自己学习,关键看之前数据是否有标签
监督学习问题一般分为分类问题和回归问题(预测)
无监督学习的数据没有标签,但是可以把数据分成不同的簇,即聚类算法
简单例子,鸡尾酒聚会算法,聚会上有两个人同时用不同的语言从一数到十,通过无监督学习,计算机可以提取到对应同一类的特征,并且可以得到两种输出,即两种不同的语言从一到十的声音
监督学习:线性回归模型(预测)
吴恩达机器学习笔记
引用大佬文章