![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
本帅哥屏蔽了凡人
谦卦六爻皆吉,恕字终身可行
展开
-
DRL代码学习打卡-6
DRL代码学习打卡-6OpenAI GymGym 官网: https://gym.openai.com/envs/如果写控制或者游戏环境可能用得到,暂时不看这里了。原创 2021-05-11 15:04:12 · 118 阅读 · 0 评论 -
再看 DRL
DRL 里面有许多摸不清的概念转载 https://zhuanlan.zhihu.com/p/109498587Q 和 V 的意义所以我们在做决策的时候,需要把眼光放远点,把未来的价值换到当前,才能做出选择。为了方便,我们希望可以有一种方法衡量我做出每种选择的价值。这样,我只要看一下标记,以后的事情我也不用理了,我选择那个动作价值更大,就选那个动作就可以了。当然,我们也可以把这个标记标在状态上。为了方便沟通,我们这样定义评估动作的价值,我们称为 Q 值:它代表了智能体选择这个动作后,一直到最原创 2020-11-24 11:08:54 · 305 阅读 · 0 评论 -
DRL代码学习打卡-5
DRL代码学习打卡-41. 什么是 DQNQ table 异常复杂(state 过多)存储问题搜索问题使用表格来存储每一个状态 state, 和在这个 state 每个行为 action 所拥有的 Q 值. 而当今问题是在太复杂, 状态可以多到比天上的星星还多(比如下围棋). 如果全用表格来存储它们, 恐怕我们的计算机有再大的内存都不够, 而且每次在这么大的表格中搜索对应的状态也是一...原创 2020-03-14 10:48:10 · 382 阅读 · 0 评论 -
DRL代码学习打卡-4
DRL代码学习打卡-41. 什么是 Sarsa(lambda)基于Sarsa的提速方法。Sarsa是单步更新的,也称作Sarsa(0);一个回合走N步,称作Sarsa(N);同理, 如果等待回合完毕我们一次性再更新呢, 比如这回合我们走了 n 步, 那我们就叫 Sarsa(n). 为了统一这样的流程, 我们就有了一个 lambda 值来代替我们想要选择的步数, 这也就是 Sarsa(...原创 2020-03-13 16:10:39 · 260 阅读 · 0 评论 -
DRL代码学习打卡-3
DRL代码学习打卡-31. 什么是 Sarsa (Reinforcement Learning)和 Q-Learning 几乎一样,唯一不同在上一节已经提过。假如我们经历正在写作业的状态 s1, 然后再挑选一个带来最大潜在奖励的动作 a2, 这样我们就到达了继续写作业状态 s2,而在这一步,如果你用的是 Q learning, 你会观看一下在 s2 上选取哪一个动作会带来最大的奖励,...原创 2020-03-13 14:15:28 · 256 阅读 · 0 评论 -
DRL代码学习打卡-2
DRL代码学习打卡-21. Q-learning 算法实现走迷宫小游戏让探索者学会走迷宫黄色的是天堂 (reward 1)黑色的地狱 (reward -1)大多数 RL 是由 reward 导向的,所以定义 reward 是 RL 中比较重要的一点整个算法就是一直不断更新 Q table 里的值, 然后再根据新的值来判断要在某个 state 采取怎样的 action.2. 关于环...原创 2020-03-13 11:06:56 · 240 阅读 · 0 评论 -
DRL代码学习打卡-1
强化学习 代码学习打卡原创 2020-03-11 22:40:09 · 426 阅读 · 0 评论 -
Determinantal point process 入门
什么是“行列式点过程”在机器学习(ML)中,子集选择问题的目标是从 ground set 中选择具有高质量但多样化的 items 的子集。这种高质量和多样性的平衡在 ML 问题中经常通过使用行列式点过程(determinantal point process,DPP)来保持,其中 DPP 赋予子集上的分布能够使得选择两个相似项的概率是(反)相关的。虽然 DPPs 在随机几何(Stochasti...原创 2019-06-01 20:19:41 · 10995 阅读 · 3 评论 -
机器学习的基本概念
机器学习的基本概念1、什么是人工智能? 人工智能,artificial intelligence,简称 AI。 出发点(目标)是希望打造出一种方法让计算机(或机器)像人类一样可以思考,推理等行为;让计算机能够做出像人类一样智能化的行为。 人工智能常用的领域:(核心是机器学习) 推理(reasoning); 机器人(robot原创 2017-09-02 09:38:00 · 535 阅读 · 0 评论 -
机器学习之监督学习-回归
机器学习之监督学习-回归一、机器学习算法分类 有监督学习: 分类 回归 半监督学习: 分类 回归 无监督学习: 聚类 降维 强化学习: 马尔可夫决策过程 动态规划 参考网址:http://qing0991.blog.51cto.com/1640542/185198原创 2017-09-03 08:48:01 · 1839 阅读 · 4 评论 -
机器学习之监督学习-分类
机器学习之监督学习-分类一、分类问题概念 分类问题(classification problems) 输入特征(input features):x(i)x^{(i)} (定义域:实数) 输出(output):y(i)y^{(i)} (值域:离散值) 模型参数(model parameters):θθ 参考网址:http://blog.cs原创 2017-09-03 11:15:03 · 576 阅读 · 2 评论 -
一个例子搞清楚(先验分布/后验分布/似然估计)
一个例子搞清楚(先验分布/后验分布/似然估计)preface: 无论是《通信原理》还是《概率与统计理论》,或者在现在流行的《模式识别》和《Machine Learning》中总会遇到这么几个概念:先验分布/后验分布/似然估计。 如果大家不熟悉这几个词,相信大家熟知贝叶斯公式,该公式涉及到了以上几个概念。但是学完本科课程,也会算题,就是在实际情境中总感觉理不清这几个概念的关系,最近上课老原创 2017-10-17 19:22:36 · 113309 阅读 · 85 评论 -
贝叶斯学习
贝叶斯学习1 贝叶斯学派贝叶斯学派认为,概率是一个人对于一件事的信念强度,概率是主观的。但频率主义学派所持的是不同的观念:他们认为参数是客观存在的, 即使是未知的,但都是固定值,不会改变。 频率学派认为进行一定数量的重复实验后,如果出现某个现象的次数与总次数趋于某个值,那么这个比值就会倾向于固定。最简单的例子就是抛硬币了,在理想情况下,我们知道抛硬币正面朝上的概率会趋向于1/2。 但原创 2018-01-23 18:51:07 · 879 阅读 · 0 评论 -
暑期深度学习实训笔记
暑期深度学习实训笔记本笔记包含深度学习的整体框架的summary:机器学习的大概流程得分函数损失函数寻参K近邻与交叉验证梯度下降神经网络的基本流程目录暑期深度学习实训笔记目录一 机器学习的大概流程二 得分函数三 损失函数四 寻参的K近邻与交叉验证五 梯度下降六 神经网络的基本流程七 结尾(一) 机器学习的大概流程数据 : 收集数据,加定标签 训练 : 训练原创 2017-08-07 13:33:27 · 1015 阅读 · 0 评论 -
暑期 tensorflow+CNN+mnist
暑期 tensorflow+CNN+mnistkaggle官网的mnist数据集,格式为csv。图像像素点数据归一化,减少浮动差异。根据预先计算好的数据指标,进行设计。标签进行独热编码。划分数据集为:train、val。初始化卷积层和全连接层的权重、偏置等参数。设计代价函数,进行优化。训练、验证。关于交叉熵函数参考网址:http://www.jianshu.com/p/1f1d9原创 2017-08-15 16:04:03 · 412 阅读 · 0 评论 -
暑期学习自然语言处理笔记
暑期自然语言处理学习笔记一、 自然语言处理的应用 自然语言处理(natural language processing,即 NLP)(1)拼写检查纠错,关键词搜索,垃圾邮件识别 (2)文本挖掘,文本分类 (3)机器翻译 (4)自动问答、客服机器人 (5)复杂对话系统:微软小冰二、 自然语言处理的模型深度学习网络应用于NLP,在于特征提取的优势。深度学习中的强化学习是无监督的模原创 2017-08-17 12:18:55 · 593 阅读 · 0 评论 -
暑期学习 GAN 笔记
暑期学习 GAN 笔记 前言: GAN 是 对抗生成网络 (Generative Adversarial Networks)。2014年还在蒙特利尔读博的 Ian Goodfellow 将 GAN 引入到 DL 领域。去年,也就是2016年,是 GAN 最火的一年,大量论文被发表,今年淡了一些。下图(把马变成斑马,就是GAN的一种应用) 一、GAN 原理概述 简单说原创 2017-08-21 17:10:48 · 1068 阅读 · 0 评论 -
暑期学习 DCGAN 笔记
暑期学习 DCGAN 笔记 前言:在 GAN 的基础上,把经典GAN中的 G 和 D 换成了两个卷积神经网络(CNN),并不是直接替换, DCGAN 对 CNN 的结构做了一些改变。 DCGAN 的特点: 判别模型:使用带步长的卷积(strided convolutions)取代了空间池化(spatial pooling),容许网络学习自己的空间下采样(spatial原创 2017-08-22 13:52:45 · 1418 阅读 · 5 评论 -
暑期 NLP 之 TF-IDF 算法笔记
暑期 NLP 之 TF-IDF 算法笔记 继 NLP 笔记之后的补充笔记。一、TF-IDF算法参考网址:http://blog.csdn.net/lionel_fengj/article/details/53699903 TF-IDF 其实就是 TF∗IDFTF*IDF: TF(Term Frequency):表示词条在文章 Document 中出现的频率。 ID原创 2017-08-26 18:14:48 · 469 阅读 · 0 评论 -
暑期学习 RNN 笔记
暑期学习 RNN 笔记 前言: 递归神经网络:(recurrent neural network,RNN)。 是在传统的神经网络上做的另外一层改变。RNN 相较于 CNN 变化小一些。 一、RNN 的思想 问题:在一个全连接的传统神经网络中;假设有三个与时间相关的数据:1号数据代表早上、2号数据代表中午、3号数据代表晚上;传入传统网络,我们会发现三个数据各传各的互不相干原创 2017-08-27 09:08:50 · 436 阅读 · 0 评论 -
暑期学习 CNN 笔记
暑期学习CNN笔记1. 传统NN 与 CNN同:它们都由具有权重和偏置的神经元组成。每个神经元都接收一些输入,并做一些点积计算,输出是每个分类的得分。普通NN里的一些计算技巧在CNN里依旧适用。异: CNN是具有三维体积的神经元(比NN多一个depth)。CNN利用输入是图片的特点把神经元设计成三个维度 : width、height、depth(注意这里的depth不是网络的深度,而是描述神经元的原创 2017-08-10 12:10:02 · 777 阅读 · 0 评论 -
暑期 tensorflow+word2vec 笔记
暑期 tf+word2vec 学习笔记一、需要提前装的库#``` bs4 将爬下来的数据去掉无关的特殊字符```#``` nltk NLP中重要的处理库```#``` gensim 构建模型的需要```from bs4 import BeautifulSoup#``` sklearn 机器学习库 特征提取 算法集成 模型评估标准```from sklearn.feature_extra原创 2017-08-20 10:25:32 · 1383 阅读 · 2 评论 -
暑期学习 LSTM 笔记
暑期学习 LSTM 笔记 前言: 在 RNN 的基础上网络进化到 LSTM。 回忆 RNN 相关思想请点 这里。一、LSTM 简介RNN 的 长期依赖 问题:RNN 的核心思想是:将之前的信息连接到当前的任务中来,例如通过之前的电影故事情节来帮助推理接下来的故事情节发展。一些情况下,我们只需要看最近的信息,就可以完成当前的任务。比如,预测句子“太阳从东方升起”中的最后一个原创 2017-08-27 17:59:37 · 461 阅读 · 0 评论 -
强化学习 入门(二)
强化学习 入门(二)一、Q-learning:Q-table 公式 :更新规则:相当于以前有个old的值,现在又发现了个new的值,该用哪一个呢?只用新的,相当于彻底放弃已有经验。只用老的,相当于不更新。各取一半,相当于取个平均。那就老规矩,加个权重,引入了权重 αα ,得到了更新公式。Qlatest=(1−α)Qold+αQnew=Qold+α(Qnew−Qold) Q_{latest}原创 2018-03-20 16:51:17 · 701 阅读 · 2 评论 -
强化学习 入门(一)
1. 强化学习 是什么 强化学习,Reinforcement Learning,RL。 虽然我们不知道人类学习的终极奥秘,但有一些事情是可以理解的:我们首先需要与环境进行交互,无论是人们学习驾驶汽车还是婴儿学习走路,学习都是基于和环境的相互交互。 从互动中学习的思想就是强化学习,它是一种基于环境相互交互的学习算法。2. 强化学习 的问题 下图所示是一个强化学习过程。原创 2018-01-30 21:44:27 · 1696 阅读 · 0 评论 -
TF 笔记:关于 conv1D
TF 笔记:关于 conv1D有了 2d 卷积的理解,看 1d 应该更容易理解。对一维来讲,卷积就是对一条线一小段一小段地叠加。conv1d( value, filters, stride, padding, use_cudnn_on_gpu=None, data_format=None, name=None)所以有,inp...原创 2018-10-08 16:13:30 · 4741 阅读 · 3 评论 -
DL里面关于epoch、 iteration和batchsize
DL里面关于epoch、 iteration和batchsize深度学习中经常看到epoch、 iteration和batchsize,这三个的区别如下:(1)batchsize:一批数据大小。在深度学习中,一般采用SGD训练,即每次训练在训练集中取batchsize个样本训练;(2)iteration:1个iteration(循环,反复)等于使用batchsize原创 2017-08-12 17:54:54 · 591 阅读 · 0 评论