war127-CSDN博客

原创支持向量机

1.在深度学习之前支持向量机机器核方法是机器学习的主流方法。从几何角度出发支持向量机意味着距离正负样本都远的超平面。相比于感知机其结唯一，泛化性强。n维空间的超平面wTx+b=0，w为法向量，b为位移项。支持向量机的一个重要性质：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量有关。求解对偶问题的一个高效算法：SMO。

2023-12-28 01:18:30 454 1

原创西瓜书—第5章神经网络

M-P神经网络：神经元接收来自于其他n个神经元的输入信号，经过有权重的关系进行传递，与阈值进行比较厚，通过激活函数处理达到最后结果。神经网络：有具有适应性的单元组成，能够模拟生物神经系统对事物做出真实的反映。只需一个包含足够多神经元的隐曾，多层前馈神经网络可模拟任意精度的函数。使用多层功能神经元可解决非线性可分问题。神经元：神经网络中最基本的单元；

2023-12-25 02:25:59 368

算法原理：建造根节点，将所有的对象都放到根节点，选择最优特征进行分类，使训练集在当前环境下为最优分类。如果分类最优，则构建叶子结点，否则继续进行分类，构建相应的结点，如此递归，直到所有都被正确分类，或者没有更好的分类方式。概念：从根节点出发，对需要分类的对象每个属性进行判断，根据判断将对象分配到其子节点。此时每个节点又对应着该属性的一个取值，如此递归进行判断和分配，直至将对象分配到叶子结点。本质从训练集中总结出一组最优分类规则。特征选择：如果随机选择与特定的一个特征进行分类没有区别，则该特征不具备分类。

2023-12-21 23:16:02 372

原创机器学习-线性模型

给定数据集 D = {(æ1,Y1),...，(æm，Ym)}，线性回归其实就是利用线性模型试图得到最接近正确正确值。线性模型就是希望通过属性的线性组合得到预测函数。许多非线性的模型其实也是基于线性模型得来的。找到单调可微的函数将分类任务的值与回归模型预测的值联系起来。尽可能将同样的类型的案例投影在相接近，而异类投影的较远处。均方差是衡量回归任务中最常用的指标。

2023-12-19 00:07:22 358 1

原创强化深度学习基础

在本质上强化学习与深度学习解决的问题差异大，一个解决序列问题，一个解决静态问题，所以当深度学习应用于强化学习，需要进行转化。用深度学习的结果预测真实的Q值。DQN训练与普通深度学习训练其中一点不同的是深度学习可以随机从样本中抽取独立分布的样本，而DQN 获取基于当前与环境发生交互的结果，每次迭代样本有一定的关联度。这个可以通过经验回放解决问题。在Q表中我们描述状态空间的时候一般用的是状态个数，而在神经网络中我们用的是状态维度。

2023-11-25 02:35:23 382

原创 task2

智能体能提取的动作只是根据不同的情况作出一个具体的反应，而这个反应这个环境越具体，作出的反馈也越具体。而人对于环境可以抽象为类别如游戏中需要不碰到敌人，基于这个原则作出向上或者向下等。所以智能体在理解抽象概念是否意味会远超人的反应动作。按照策略时间序列任务相比较适合强化学习，下个时间段输入可作为环境的反馈。当前环境s2取决于环境s1以及a1动作；强化学习三要素：演员、环境、奖励；

2023-11-18 10:19:26 33 1

原创强化学习task1打卡

当问题无法满足不符合马尔可夫性质的，这也并不意味着完全不能用强化学习来解决，实际上此时我们可以用深度学习神经网络来表示当前的棋局，并用蒙特卡洛搜索树等技术来模拟玩家的策略和未来可能的状态，来构建一个新的决策模型，这就是著名的 AlphaGO 算法④。具体的技术细节后面会展开，总之记住在具体的情境下，当我们要解决问题不能严格满足马尔可夫性质的条件时，是可以结合其他的方法来辅助强化学习进行决策的。，在马尔可夫奖励过程基础上增加动作的元素就会形成马尔可夫决策过程，也就是强化学习的基本问题模型之一。

2023-11-14 00:26:06 32

原创免费Gpu线上优化猫狗识别实践

开发环境创建好后，您可在开发环境中调试代码。记住这个趋动云平台.

2023-11-07 14:02:52 72

war127的博客