机器学习
文章平均质量分 75
sword_csdn
架构师
展开
-
【强化学习】重要度采样(Importance Sampling)
目录知识准备重要度采样优化积分的近似知识准备假设随机变量X的取值:x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn,它对应的概率PPP是:p1,p2,...,pnp_1,p_2,...,p_np1,p2,...,pn,则关于XiX_iXi的数学期望是:E(X)=∑k=1∞xipkE(X)=\sum_{k=1}^\infty x_ip_kE(X)=k=1∑∞xipk如果h(xi)h(x_i)h(xi)是关于随机变量XXX的事件,则它发生的概率跟随机变原创 2021-11-24 17:58:04 · 1529 阅读 · 0 评论 -
【强化学习】Trust Region Policy Optization(TRPO)
目录Policy Gradient的问题Policy Gradient的问题由于数据的采样原创 2021-11-22 14:24:59 · 953 阅读 · 0 评论 -
【强化学习】策略优化基础
目录Value-based RL vs Policy-based RLPolicy-based RL的优势与劣势策略函数的类型策略优化Cross-Entropy MethodValue-based RL vs Policy-based RL基于策略函数的强化学习(Policy-based RL)学习的是策略函数,策略函数实际上跟机器学习领域中的分类模型(model)差不多。这跟基于价值函数的强化学习(Value-based RL)不同。(1)基于价值函数的强化学习是基于一个确定的策略来计算QQQ值,然原创 2021-10-11 16:08:13 · 1254 阅读 · 0 评论 -
【强化学习】资格迹(Eligibility Traces)
目录资格迹是强化学习的基本方法之一,几乎所有用时序差分的算法都可以与资格迹结合起来,从而可以获得一个更加有效且具一般性的方法。强化学习的本质是找最优策略π∗\pi_*π∗,最优策略π∗\pi_*π∗......原创 2021-09-28 13:07:38 · 2690 阅读 · 3 评论 -
【强化学习】使用近似方法的on-policy控制
目录episodic semi-gradient controlepisodic semi-gradient control近似的动作价值函数q^≈qπ\hat{q}\approx q_\piq^≈qπ,表示为具有权值向量www的参数化函数形式。前面的预测问题关注的是形如St→UtS_t\rightarrow U_tSt→Ut的随机训练样本,而对于控制问题,样本的形态会变成St,At→UtS_t,A_t\rightarrow U_tSt,At→Ut。更新目标UtU_tUt可以是qπ(St原创 2021-08-10 16:32:00 · 315 阅读 · 0 评论 -
【强化学习】使用近似方法的on-policy预测
表格型近似方法许多应用强化学习的任务都是具有组合性的原创 2021-08-05 14:16:07 · 841 阅读 · 0 评论 -
【强化学习】MCTS
目录Simulation-Based SearchMC SearchMCTS上线置信区间算法UCT棋类游戏MCTS搜索Simulation-Based Search基于仿真的搜索包含两点:一个是simulation,其次是search。simulation是基于强化学习model进行采样,得到样本数据。但这不是基于和环境交互获得的真实数据。search则是为了利用样本结果来帮我们计算应该采用什么动作,以实现长期利益最大化要理解什么是Simulation-Based Search,首先要明白什么是for原创 2021-07-21 10:06:52 · 1015 阅读 · 3 评论 -
【强化学习】基于表格型方法的规划和学习
如果换一个角度来考虑一系列强化学习方法,它们可以被分为基于模型的(model-based)和无模型(model-free)的两类强化学习方法。model-based的方法将“规划”作为其主要部分,而model-free的方法则依赖于“学习”。虽然这两种方法之间存在着很大的差异,但是也有很多相似之处,比如这两类方法的核心都是计算价值函数。此外,所有的方法都基于对未来事件的展望,来计算一个回溯价值,然后使用它作为目标来更新一个近似价值函数。模型和规划环境模型,指的是agent可以用来预测环境将如何对其行原创 2021-07-20 13:43:54 · 835 阅读 · 0 评论 -
【强化学习】n步Bootstrapping
单独的MC方法或TD方法不会总得到最好的结果。n步时序差分方法是这两种方法更一般的推广,在这个框架下,可以更平滑地切换这两种方法。MC和TD是这个框架中的两个极端特例,一般情况下,中间方法的性能一般要比这两种极端方法好......原创 2021-07-04 00:18:56 · 1754 阅读 · 2 评论 -
【强化学习】时序差分方法
时序差分方法结合了蒙特卡洛方法和动态规划的思想,在强化学习中应用最为广泛。(1)直接从智能体与环境交互的经验中学习。(2)无须等待交互的结果,可以边交互边学习,不需要等整个episode结束。预测问题:即给定强化学习的5个要素:状态集,动作集,即时奖励,衰减因子,给定策略,求解该策略的状态价值函数。控制问题:也就是求解最优的价值函数的策略。给定强化学习的5个要素:状态集,动作集,即时奖励,衰减因子,探索率,求解最优的动作价值函数和。已知every - visit的MC算法的价值计算函数是原创 2021-06-25 19:20:27 · 1140 阅读 · 1 评论 -
【强化学习】蒙特卡洛方法
蒙特卡洛算法仅仅需要经验,即从真实或者模拟的环境交互中采样得到的状态、动作、收益的序列,不需要关于环境动态变化规律的先验知识,却依然能够达到最优的行为。蒙特卡洛算法通过平均样本的回报lai......原创 2021-06-19 17:57:16 · 5698 阅读 · 1 评论 -
【强化学习】动态规划
目录动态规划(Dynamic Programming,DP)是一类优化方法,在给定一个用马尔可夫决策过程(MDP)描述的完备环境模型的情况下,其可以计算最优的策略。我们假设环境是一个有限MDP。我们假设状态集合S、动作A和收益集合R是有限的,并且整个系统的动态特性由对于任意s∈S、a∈A(s)、r∈R和s’∈S+(S+表示在分幕式任务下S加上一个终止状态)的四参数概率分布p(s’,r|s,a)给出。尽管DP的思想也可以用在具有连续状态和动作的问题上,但是只有在某些特殊情况下才会存在精确解。一种常见的近似原创 2021-06-17 14:43:15 · 1076 阅读 · 2 评论 -
【强化学习】有限马尔科夫模型
目录“智能体-环境”交互接口有限马尔可夫决策过程(有限MDP问题)既涉及“评估性反馈”,又涉及“发散联想”,即在不同情境下选择不同的动作。MDP是序列决策的经典形式化表达,其动作不仅影响当前的即时收益,还影响后续的情境(又称状态)以及未来的收益。因此,MDP涉及了延迟收益,由此也就有了在当前收益和延迟收益之间权衡的需求。在赌博机问题中,我们估计了每个动作a的价值q*(a),而在MDP中,每个动作a在每个状态s中的价值q*(s,a),或者估计给定最有动作下的每个状态的价值v*(s)。“智能体-环境”交互原创 2021-06-07 15:30:22 · 1200 阅读 · 0 评论 -
【强化学习】多臂老虎机
目录简介k臂赌博机问题动作-价值方法10臂测试平台简介强化学习与机器学习最大的不同,在于前者的训练信号是用来评估给定动作的好坏的,而不是通过给出正确动作范例来进行直接的指导。“评估性反馈”,表明当前采取的动作的好坏程度,但无法确定最好和最坏。“指导性反馈”表示应该选择的正确动作是什么,这是监督学习的基本方式,被广泛用于模式分类、人工神经网络等。k臂赌博机问题假设你要重复地在k个选项中进行选择。每次做出选择之后,你都会得到一定数值的收益,收益值由所选择的动作的平稳概率分布产生。k臂赌博机源于“老虎机”原创 2021-05-27 17:36:30 · 644 阅读 · 0 评论 -
【机器学习】似然函数
目录似然和概率似然和概率似然和概率都可以理解为“可能性”,但是它们针对的对象不一样,似然函数是关于Θ的函数,概率密度函数是关于x的函数。比如似然函数定义为:L(Θ|x),而概率密度函数定义为f(x|Θ)。假设X的概率密度函数可以定义为:其中X是离散的随机向量X(x1,x2,…),表示参数Θ下随机向量X取到x的可能性。假设:那么我们可以认为“参数Θ1下随机变量X取值x的可能性”大于“参数Θ2下随机向量X取到值x的可能性”。简单点来说,我们有理由相信Θ1比Θ2更有可能是真实值。如果X是连续的随原创 2021-05-10 19:02:35 · 5212 阅读 · 0 评论 -
【机器学习】自然语言处理中的关键技术
目录分词规则分词统计分析深度学习分词混合分词词性标注的定义命名实体识别分词中文分词(Chinese Word Segmentation):指的是将一个汉字序列切分成一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。例如:一九九八年/中国/实现/进出口/总值/达/一千零九十八点二亿/美元规则分词规则分词:一种机械分词方法,主要是通过维护词典,在切分语句时,将语句中的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。按照匹配切分的方式,主要有:(1)正向最大匹配法原创 2020-11-02 20:29:50 · 1813 阅读 · 0 评论 -
【机器学习】自然语言处理的常用算法
目录参考HMM参考华为云学院HMM原创 2020-11-02 13:49:44 · 1686 阅读 · 0 评论 -
【机器学习】自然语言处理基础知识
目录参考语言模型神经网络语言模型N - gram语言模型NN语言模型与统计语言模型的关系文本向量化word2vec - CBOW模型word2vec - Skip-gram模型doc2vec - DM模型doc2vec - DBOW模型参考华为云学院https://www.cnblogs.com/pinard/p/7160330.html语言模型语言模型是根据语言客观事实而进行的语言抽象建模,是一种对应关系,假设有以下这类问题:(1)机器翻译(I have a dream):P(我有个梦想)&g原创 2020-11-02 11:20:37 · 621 阅读 · 0 评论 -
【机器学习】自然语言处理简介
目录什么是自然语言处理自然语言处理的基本方法自然语言处理的三个层面自然语言处理的难点什么是自然语言处理利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息,进行各种类型处理和加工的技术。——冯志伟自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力和语言应用的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。——Bill Manaris原创 2020-11-02 08:48:47 · 2657 阅读 · 0 评论 -
【机器学习】高级语音模型
目录RNNRNN网络结构RNN结构展开标准RNNBPTTLSTMLSTM与语音识别LSTM:初始状态LSTM:遗忘门LSTM:输入门LSTM:更新RNN循环神经网络(Recurrent Neural Networks,RNN)是一种通过隐藏层节点周期性的连接,来捕捉序列化数据中动态信息的神经网络,可以对序列化的数据进行分类。与其他网络不通,RNN可以保存一种上下文的状态,能够在任意长的上下文窗口中存储、学习、表达相关信息。而且不再局限于传统神经网络在空间上的边界,可以在时间序列上有延拓。RNN广泛应原创 2020-10-31 21:30:37 · 1491 阅读 · 0 评论 -
【机器学习】语音深度神经网络模型
目录DNN-HMMDNN-HMM语音识别CD-DNN-HMMCD-DNN-HMM组成CD-DNN-HMM 性能提升DNN训练加速DNN解码加速DNN由于GMMDNN-HMM深度神经网络-隐马尔科夫模型(DNN-HMM)利用DNN的特征学习能力和HMM的序列化建模能力进行语音识别任务的处理,在很多大规模任务中,其性能远优于传统的GMM-HMM混合模型。DNN:特征的学习能力,估计观察特征的概率,预测状态的后验概率。HMM:描述语音信号的序列变化,预测后面的序列。DNN-HMM语音识别声学信号使用H原创 2020-10-31 17:53:11 · 1808 阅读 · 0 评论 -
【机器学习】传统语音模型
目录GMM混合模型混合模型定义高斯混合模型定义随机变量离散型随机变量连续型随机变量概率密度函数高斯分布高斯分布曲线单高斯模型最大似然法最大似然估计概率与似然单高斯模型参数学习GMM混合模型混合模型是一个由K个子分布组成的混合分布,表示了观测数据在总体中的概率分布。例如:由几个高斯分布混合起来的模型叫高斯混合模型,几个线性模型混合在一起的模型叫线性混合模型。混合模型是一个统计模型,包含固定效应和随机效应。在统计学中,混合模型是代表一个大群体中存在子群体的概率模型。混合模型定义高斯混合模型定义G原创 2020-10-29 17:56:48 · 1836 阅读 · 1 评论 -
【机器学习】语音处理介绍
这里写目录标题语音处理语音处理的主要应用场景语音学语音学分类语音来源语言学语音处理语音信号处理(Speech Signal Processing)简称语音处理,是用以研究语音发声过程、语音信号统计特性、语音自动识别、机器合成以及语音感知等处理技术的总称。现代的语音处理技术都以数字计算为基础,借助微处理器、信号处理器或通用计算机加以实现,因此也称数字语音信号处理。语音信号处理起源于对发音器官的模拟,1939年美国H·杜德莱(H·Dudley)发明了一个简单的发音过程虚拟系统,在未来发展为声道的数字模型。原创 2020-10-25 08:54:14 · 6500 阅读 · 0 评论 -
【机器学习】深度学习和卷积神经网络
目录卷积神经网络卷积运算卷积核计算演示卷积网络中的概念卷积神经网络的核心思想卷积神经网络结构ILSVRCAlexNetVGGNet谷歌的GoogLeNet微软的残差网络ResNetSENet卷积神经网络卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它包括(convolution),池化层(pooling layer)和全连接层(fully connected layer)。20世纪60年代,Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向原创 2020-10-22 11:52:08 · 2845 阅读 · 0 评论 -
【机器学习】特征提取与传统图像处理算法
目录特征提取图像二值化阈值分割自适应阈值分割双峰法最大类间方差法(OTSU)形态学处理(morphology)膨胀腐蚀开运算闭运算特征描述子特征提取为了将数字图像有效地转换为结构化数据,需要用到图像特征提取的技术降低数据的维度。其主要思路有:降采样:通过缩放等降采样技术降低待分析图像数据的分辨率。分割感兴趣区域(Region of Interest,ROI):通过分割技术,提取图像中的感兴趣目标的区域,减少待处理的数据量。特征描述子:将图像转为固定长度的特征向量。图像二值化将像素点的灰度值全部原创 2020-10-21 18:23:56 · 2072 阅读 · 0 评论 -
【机器学习】图像预处理
目录图像处理的形式图像预处理灰度变换反转对比度增强对比度压缩伽马矫正直方图彩色直方图直方图均衡化直方图规定化空间滤波模板运算均值滤波高斯滤波中值滤波图像锐化边缘检测图像锐化实现坐标转换平移镜像旋转缩放最邻近插值双线性插值仿射变换透视变换彩色图像处理图像预处理技术在深度学习中的应用图像处理的形式(1)单幅图像输入->单幅图像输出(2)多幅图像输入->单幅图像输出(3)单幅图像输入->数字或符号等内容输出(4)多幅图像输入->数字或符号等内容输出其中(1),(2)对数据的形式原创 2020-10-21 15:30:14 · 9274 阅读 · 0 评论 -
【机器学习】数字图像处理基础
目录图像的感知和获取图像数字化采样分辨率量化灰度级数字图像的表示彩色图像 - RGB彩色图像 - HSV其他颜色空间颜色空间转换灰度化图像的感知和获取数字化图像的获取过程由光敏传感器开始,传感器的输出一般是连续的电压波形,描述传感器质量的参数包括单元数,尺寸,和传感性能。图像数字化使用图像数字化技术将连续的电压波形转换成图像,数字化过程包括采样和量化采样采样就是按照一定的时间间隔和空间间隔,在连续的电压波形上采集数据的过程,即离散化。采样的效果由传感器采样间隔和采样口径决定。分辨率采样后得到原创 2020-10-20 13:30:10 · 1478 阅读 · 0 评论 -
【机器学习】神经网络设计架构
目录网络深度的影响网络参数的影响层与层之间的连接网络深度的影响由上图可以看出,当神经网络的深度从3到6的时候,模型的准确度提高得比较快,接着从6到10,准确度提高得比较缓慢。网络参数的影响由上图可以看出,在网络层数一样的情况下,卷积的效果比全连接的要好,并且全连接出现了过拟合的现象。此外还有一个结论,就是在没有改变层数的情况下,仅仅增加参数的数量,效果提升是不明显的。层与层之间的连接可以使用全连接,也可以使用卷积连接,卷积可以减少连接数,进而减少参数数量和计算量。但是这往往依赖于具体问题。原创 2020-10-20 10:53:53 · 436 阅读 · 2 评论 -
【机器学习】反向传播
目录概述正向传播误差的反向传播权重更新梯度消失与梯度爆炸概述反向传播算法使用链式求导法则将输出层的误差反向传回给网络,使网络中的权重有了较简单的地图计算方法。像TensorFlow,Pytorch有现成的反向传播实现。正向传播首先定义一个简单的神经网络,正向传播的过程如下所示以此类推,到达预测值y的位置如下。误差的反向传播接着计算预测值与真实值的误差接着可算出上一层的误差,本层的误差由“下一层的误差”乘以“它们之间的权重”。权重更新然后权重的更新如下所示。以此类推到最后一层原创 2020-10-20 09:52:25 · 466 阅读 · 0 评论 -
【机器学习】深度前馈网络
目录概述神经网络什么是深度学习深度前馈网络推导概述单个感知器的表达能力有限,它只能表达线性决策面(超平面)。如果把多个感知器连接起来,就可以表达种类繁多的非线性曲面。神经网络神经网络基于感知器模型做了三点扩展:(1)加入隐藏层,隐藏层可以有多层,增强模型的表达能力(2)多个输出层神经元,灵活应用于分类回归,分类,语义分割等。(3)扩展激活函数,包括Sigmoid函数,Softmax和ReLU等。什么是深度学习隐藏层比较多(大于2)的神经网络叫做深度神经网络(DNN)。也叫作前馈神经网络(F原创 2020-10-19 18:27:59 · 159 阅读 · 0 评论 -
【机器学习】激活函数
目录sigmoid函数tanh函数ReLU函数Softmax激活函数设计需要考虑的因素非线性连续可微性有界性单调性平滑性sigmoid函数sigmoid函数的值域是(0,1),在远离中心点的位置,斜率会接近于0。随着反向传播层数的增多(大概是5层),会出现“梯度消失”的现象。也可以称作“失去敏感性”,“处于饱和状态”。tanh函数tanh函数取值在(-1,1)之间,跟sigmoid函数有相同的问题,就是在远离中心点的地方斜率接近于0,会出现“梯度消失”现象。但是tanh在训练过程的效率比si原创 2020-10-19 15:34:49 · 1262 阅读 · 0 评论 -
【机器学习】感知机
目录概述公式损失函数梯度下降实现步骤概述感知机可接收多个信号,然后输出一个信号,是最简单的网络结构。由美国学者Frank Rossanblatt在1957年提出。每个输入信号具有一定的权重,计算多个输入信号的值与权重的乘积和,根据结果与指定的阈值进行比较,来决定该神经元是否被激活。公式感知机的计算方法:激活函数:感知机在解决问题的时候,会寻找一个超平面将该空间下的数据分隔开。损失函数感知机的损失函数期望将所有误分类的数据到超平面的距离之和最小。感知机的损失函数公式如下:梯度下降由原创 2020-10-19 11:37:06 · 908 阅读 · 1 评论 -
【机器学习】人工神经网络
目录生物神经元人工神经网络神经元神经网络的拓扑结构前馈网络反馈网络图网络生物神经元人工神经网络人工神经网络旨在模仿人人脑结构及其功能的信息处理系统。人工神经网络简称神经网络(Artificial Neural Network,ANN),是由人工神经元互联组成的网络。神经元神经网络由大量的神经元和它们之间的有向连接组成。神经元大致由一个线性函数和一个作为非线程转换的激活函数组成。神经网络的拓扑结构前馈网络前馈网络的信息流向是单向的,可以使用一个有向无环图来表示。前馈网络可以看做是一个非线原创 2020-10-19 10:53:17 · 468 阅读 · 0 评论 -
【机器学习】PointNet & PointNet++(理论部分)
目录参考点云特性与PointNetPointNet++Set Abstractionclassificationsegmentationmulti-scale grouping(MSG)参考《PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation》《PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space》原创 2020-10-14 11:59:41 · 2017 阅读 · 0 评论 -
【机器学习】Pytorch常用的方法
这里写目录标题tensorarrange函数range函数tensortorch.tensor(data, dtype=None, device=None, requires_grad=False, pin_memory=False) → Tensor使用data构建一个tensor>>> import torch>>> torch.tensor([[0.1, 1.2], [2.2, 3.1], [4.9, 5.2]])tensor([[0.1000, 1.原创 2020-10-12 10:01:06 · 317 阅读 · 0 评论 -
【机器学习】Tensorflow的slice函数
tf.slice(input,begin,size,name=None)函数解释:从输入数据input取出切片input:输入数据begin:开始取元素的位置,例如,[1,2,3]指的是,取元素时,第一个维度是从1开始,到了第二个维度是从2开始,到了第三个维度是从3开始。size:根据begin指定的位置开始,取多少个元素,比如begin=[1,2,3],size=[4,5,6],指的是,第一个维度从1开始选,取4个元素;到了第二个维度,从2开始,取5个元素;到了第三个维度,从3开始,取6个元素。原创 2020-09-26 12:04:56 · 672 阅读 · 0 评论 -
【机器学习】Anaconda的基本操作
目录创建环境查看环境激活环境退出环境查看当前环境安装的包在当前环境安装包删除环境导出环境使用导出的yaml创建环境重命名环境查看添加的镜像添加镜像删除镜像创建环境conda create -n 环境名称 python=[版本号]查看环境conda info -e激活环境conda activate [环境名称]在Ubuntu20.04LTS中,安装完anaconda之后,命令输入的那一行最前面会出现(base),这是默认环境。如果激活了其他环境,base会显示成其他环境的名称。退出环境原创 2020-09-03 10:45:14 · 1947 阅读 · 0 评论 -
【机器学习】线性回归(Linear Regression)
目录关于线性回归简单线性回归将模型扩展到多元线性回归关于线性回归线性回归一直是最广泛使用的回归方法之一,也是统计学中基本的分析方法。它在今天仍然被广泛使用,是因为线性关系比非线性关系更容易建模,所得模型解释也更容易。简单线性回归例如使用UCI波士顿房屋数据集,这个数据集数量比较小,并不代表大数据问题,但是可以拿来说明算法。数据集包含了波士顿郊区的自住住房的平均值,以及可用于预测房屋价值的13个特征,包括犯罪率、住宅的房间数量、高速公路的可达性等。如上图所示,x轴代表平均房间数量,y轴代表平均价格原创 2020-06-02 09:35:03 · 665 阅读 · 0 评论 -
【机器学习】初识机器学习
这里写目录标题什么是机器学习机器学习定义机器学习的典型步骤机器学习算法的分类监督和无监督算法分类基于目标变量类型的算法分类什么是机器学习机器学习定义Arthur Samual(1959):在没有明确设置的情况下,使计算机具有学习能力的研究领域。机器学习是研究使计算机完成复杂任务并且无须对其进行明确编程的科学学科,机器学习中的算法将学习如何解决给定的任务,这些算法包括来自统计学、概率论和信息理论的方法和技术。机器学习的典型步骤机器学习项目由多个步骤组成,通常可以分为以下几个步骤。(1)收集数据。原创 2020-05-30 16:45:01 · 689 阅读 · 0 评论 -
【机器学习】TensorFlow2.0的ImageDataGenerator
在图像深度学习任务中,对于小数据集,可以通过Image Data Augmentation图像增强技术来扩充数据。比如Keras的ImageDataGenerator。ImageDataGenerator的使用:tf.keras.preprocessing.image.ImageDataGenerator( featurewise_center=False, samplewise_center=False, featurewise_std_normalization=Fal原创 2020-05-18 14:21:07 · 1445 阅读 · 1 评论