【深度学习】神经网络与深度学习学习笔记

第一章 绪论

1.基本概念

深度学习(DL):深度学习是机器学习的一个分支,是指一类问题以及解决这类问题的方法。主要解决贡献度分配问题。
神经网络(ANNs):又称人工神经网络,是由人工神经元以及神经元之间的连接构成,其中有两类特殊的神经元: 一类是用来接受外部的信息,另一类是输出信息。神经网络可以看作是信息从输入到输出的信息处理系统。
人工智能(AI):人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。研究领域主要包括:感知、学习和认知
机器学习(ML):是指从有限的观测数据中学习(或“猜测”)出具有一般性的规律,并利用这些规律对未知数据进行预测的方法。
表示学习:如果有一种算法可以自动地学习出有效的特征,并提高最终机器学习模型的性能,那么这种学习就是可以叫做表示学习。主要包含两种表示方法:局部表示分布式表示
端到端学习:是指在学习过程中不进行分模块或分阶段进行训练,直接优化任务的总体且标。主要解决贡献度分配问题,训练数据为“输入-输出”对的形式。

2.常用的深度学习框架

现如今,主流框架包括:Theano、Caffe、TensorFlow、Pytorch、Keras等,其中TensorFlow和Pytorch使用最为广泛。

第二章 机器学习概述

1.基本概念

特征(Feature):是区分事物的关键(输入变量)。
标签(Label):是我们要预测的事物,即简单线性回归中的 y 变量。
样本(Sample):是指数据的特定实例:x。
特征向量(Feature Vector):用一个d维向量x = [x 1 ,x 2 ,··· ,x d ] T表示一个样本的所有特征构成的向量。
独立同分布:独立地从相同的数据分布中抽取每个样本。

2.三要素

机器学习的三个基本要素:模型、学习准则、优化算法
(1)模型:包括线性模型和非线性模型
(2)学习准则
损失函数:是一个非负实数函数,用来量化模型预测和真实标签之间的差异。
经验风险:在训练集上的平均损失。
过拟合:经验风险最小化原则很容易导致模型在训练集上错误率很低,但是在未知数据上错误率很高。这就是所谓的过拟合。
解决过拟合的方法:引入正则化项。
在这里插入图片描述
(3)优化算法
梯度下降法(批量梯度下降):首先初始化参数θ,然后按下面的迭代公式来计算训练集D上风险函数的最小值(其中α为学习率)
在这里插入图片描述
Tip:防止过拟合的方法:加正则化项或者提前停止。
提前停止:在每次迭代时,把新得到的模型f(x;θ)在验证集上进行测试,并计算错误率。如果在验证集上的错误率不再下降,就停止迭代。
随机梯度下降法:每次迭代时只采集一个样本,计算这个样本损失函数的梯度并更新参数,即随机梯度下降法。

3.线性回归模型

概念:是一种对自变量和因变量之间关系进行建模的回归分析。自变量为1的时候是简单回归,自变量大于1为多元回归
公式:
在这里插入图片描述
注意:w,b都是可学习参数,而x属于特性向量。
参数估计方法
(1)经验风险最小化
经验风险
在这里插入图片描述
通过最小二乘法,求解线性回归参数。
(2)结构风险最小化
提出岭回归,为了解决最小二乘法计算的不稳定问题。
在这里插入图片描述
(3)最大似然估计
补充:
似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)。
定义:最大似然估计是指找到一组参数w使得似然函数p(y|X;w,σ)最大。
(4)最大后验估计
定义:最大后验估计是指最优参数为后验分布p(w|X,y;ν,σ)中概率密度最高的参数w。

4.偏差-方差分解

提出目的:给机器学习模型提供了一种分析途径。
(1)模型在训练集上的错误率比较高时:
结论:模型的拟合能力不够,偏差比较高。
(2)模型在验证集上的错误率比较高时:
结论:模型过拟合,方差比较高。

©️2020 CSDN 皮肤主题: 创作都市 设计师:CSDN官方博客 返回首页