深度学习学习笔记

人工智能的主要领域:

1.感知,模拟人的感知能力。语音信息和计算机视觉

2.学习,模拟人的学习能力。监督学习,无监督学习和强化学习

3认知,模拟人的认知能力。自然语言理解,规划,决策

人工智能的发展历史:

1.推理期:1956年达特茅斯会议

2.知识期:主要是专家系统

3.学习期:从数据中学习,利用率学习到的规律对数据进行预测。即机器学习。

人工智能流派

1.符号主义:信息用符号表示,符号通过显示规则来操作。可解释

2.连接主义:人类的认知是由大量简单的神经网络处理过程,而不是符号运算。不可解释。

机器学习:从有限观测数据中学习出一半规律,并利用这些规律对数据进行预测的方法。可以分为浅层和表示学习。还有无监督学习,强化学习,监督学习等。

浅层学习:传统的机器学习主要关注于如何学习一个预测模型。一般需要首先将数据表示为一组特征(Feature),特征的表示形式可以是连续的数值、离散的符号或其它形式。然后将这些特征输入到预测模型,并输出预测结果。这类机器学习可以看作是浅层学习(Shallow Learning)。浅层学习的一个重要特点是不涉及特征学习,其特征主要靠人工经验或特征转换方法来抽取。

特征工程:由于特征处理一般都需要人工干预完成,利用人类的经验来选取好的特征,并最终提高机器学习系统的性能。因此,很多的机器学习问题变成了特征工程(Feature Engineering)问题。开发一个机器学习系统的主要工作量都消耗在了预处理、特征提取以及特征转换上。

表示学习:区别于浅层学习,如果有一种算法可以自动地学习出有效的特征,并提高最终机器学习模型的性能,那么这种学习就是可以叫做表示学习(Representation Learning)。

语义鸿沟:就是我们输入的图片等数据,计算机怎么学到这些图片,如何抽象出高层语义信息。
局部表示:通常可以表示为 one-hot向量的形式。假设所有颜色的名字构成一个词表 V,词表大小为 |V|。我们可以用 one-hot向量。一个 |V|维的 one-hot向量来表示每一种颜色。在第 i种颜色对应的 one-hot向量中,第i维的值为 1,其它都为 0。
分布式表示:向量维度一般都比较低。我们只需要用一个三维的稠密向量就可以表示所有颜色
嵌入
嵌入(Embedding):通常指将一个度量空间中的一些对象映射到另一个低维的度量空间中,并尽可能保持不同对象之间的拓扑关系。比如自然语言中词的分布式表示,也经常叫做词嵌入

深度学习:(Deep Learning, DL)机器学习的一个子问题,其主要目的是从数据中自动学习到有效的特征表示,
进一步输入到预测函数得到最终结果。

贡献度分配问题(Credit Assignment Problem, CAP)深度学习需要解决的关键问题是贡献度分配问题即一个系统中不同的组件(Components)或其参数对最终系统输出结果的贡献或影响。

端到端学习(End-to-End Learning),也称端到端训练,是指在学习过程中不进行分模块或分阶段进行训练,直接优化任务的总体目标。大部分采用神经网络的深度学习也可以看做端到端学习。

神经网络:通过逐层预训练来学习一个深度信念网络,并将其权重作为一个多层前馈神经网络的初始化权重,再用反向传
播算法进行精调。“预训练 + 精调”的方式可以有效地解决深度神经网络难以训练的问题。

模式识别:机器学习问题在早期的工程领域也经常称为模式识别(Pattern Recognition,PR),但模式识别更偏向于具体的应用任务,比如光学字符识别、语音识别、人脸识别等。

机器学习的三个基本要素:

1.模型:线性模型,非线性模型(包括神经网络模型)

2.学习准则:包括:经验风险最小化准则,结构风险最小化准则

单次预测的误差                          损失函数(01损失,平方损失,交叉熵损失)
多次预测的误差均值                   代价函数(经验风险
全部样本预测的误差均值            期望风险,但是期望风险是全局的不可求的,
取而代之的事局部的经验风险  
经验风险+正则项(惩罚项) = 结构风险(目标函数)

3.优化算法:梯度下降,提前停止,

参数和超参数:有一类参数是用来定义模型结构或优化策略的,这类参数叫做超参数(Hyper-Parameter)。 在贝叶斯方法中,超参数可以理解为参数的参数,即控常见的超参数包括:聚类算法中的类别个数、梯度下降法中的步长、正则化 制模型参数分布的参数。项的系数、神经网络的层数、支持向量机中的核函数等。超参数的选取一般都是组合优化问题,很难通过优化算法来自动学习。因此,超参数优化是机器学习的一个经验性很强的技术。

梯度下降:通过求导求得结果最优的参数。

提前停止:如果在验证集上的错误率不再下降,就停止迭代。这种策略叫提前停止(EarlyStop)。如果没有验证集,可以在训练集上划分出一个小比例的子集作为验证集

批量梯度下降法(Batch Gradient Descent, BGD):目标函数是整个训练集上风险函数,这种方式称为批量梯度下降法。批量梯度下降法在每次迭代时需要计算每个样本上损失函数的梯度并求和。

随机梯度下降:随机梯度下降相当于在批量梯度下降的梯度上引入了随机噪声。当目标函数非凸时,反而可以使其逃离局部最优点。

批量梯度下降和随机梯度下降之间的区别在于每次迭代的优化目标是对所有样本平均损失函数还是单个样本损失函数

小批量梯度下降法:将全部训练数据分为几部分,计算各个部分的损失函数。

偏差-方差分解(Bias-Variance Decomposi

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值