aliceyangxi1987的博客

智能时代,做个终身学习者,持续迭代;公众号-极客X养成计划;简书-不会停的蜗牛...

排序:
默认
按更新时间
按访问量

机器学习 人工智能 博文链接汇总

[入门问题] [TensorFlow] [深度学习] [好玩儿的算法应用实例] [聊天机器人] [神经网络] [机器学习] [机器学习算法应用实例] [自然语言处理] [数据科学] [Python] [Java] [机器学习-...

2017-05-13 23:41:07

阅读数:9836

评论数:17

强化学习 8: approximate reinforcement learning

上次提到一个问题,就是如何有效的将交叉熵算法用于很大的数据量的问题上。 前面说过,对于骑自行车这种可能只有十个 state,四个 aciton 的小问题上面,交叉熵可以解决,但如果在自动驾驶,或者打游戏上面,它却不行,因为这时我们没有办法再存储一个表格来记录所有可能状态的所有可能行为的概率,因为这...

2018-11-23 21:00:27

阅读数:28

评论数:0

强化学习第7课:交叉熵方法的一些局限性

上次介绍的交叉熵方法,交叉熵方法虽然非常有效,但是也有一些缺点。 例如,如果你只尝试100次的话,那么可能会有一些稀少的情况,在这100次中只出现那么一两次。这样的话,会得到一个非常奇怪的概率分布,可能会一直重复某一个行动。也许你可以通过增加实验的次数来改进这个问题,比如说100次增加到10000...

2018-11-23 20:59:25

阅读数:26

评论数:0

强化学习第6课:什么是 Crossentropy 方法

上次讲了马尔科夫决策过程,今天让我们来看看要如何求解这个过程? 求解方法不止有一个, 有一种思路是,我们有一个 policy,即有了行为和状态的概率分布。 对其进行初始化,可以是随机的,也可以根据具体问题用一些先验知识初始化。 然后想要改进这个 policy,可以通过获得数据,玩几次游戏,不断重复...

2018-11-23 20:56:53

阅读数:29

评论数:0

强化学习第5课:什么是马尔科夫决策过程

在强化学习中,有一个非常常见的决策过程叫马尔克夫决策过程。 它和我们前面讲的决策过程是有一样的结构,只不过它会有更多限制。这里同样也有 agent 和环境,只不过还就多了一个状态,用 s 来表示。状态 state 是 agent 可以在环境中所观察到的东西, 然后 agent 可以选择一个行为,...

2018-11-23 20:55:42

阅读数:68

评论数:0

强化学习第4课:这些都可以抽象为一个决策过程

上图是一个一般的决策过程,里面包括代理和环境。 这个过程有两步,首先你的代理会观察环境的一些特质,有时是传感器感知到的,有些是输入的用户特征。 然后代理会选择一个行为,将这个行为反馈给环境。 之后代理不仅仅会收到在这个行为下的环境的反馈,同时还以某些方式,影响着环境改变着环境。 例如,你不仅收到...

2018-11-23 20:54:56

阅读数:61

评论数:0

强化学习第3课:有些问题就像个赌局

在横幅广告这个任务中, 网站就是它的 agent ,是可以采取一些行动的。 这个网站可以观察到用户们所浏览的网页,并且能够采取一个行动。 它的 action 就是,挑选一个横幅,然后运行网页时就展示这个横幅广告。 最后代理会拿到 feedback,就是这个用户是否点击了这个横幅广告。 其他的例子,...

2018-11-23 20:54:17

阅读数:31

评论数:0

强化学习第2课:强化学习,监督式学习,非监督式学习的区别

图片来源 现在让我们看一下强化学习和其他机器学习方法的对比。 在监督式学习中,我们有数据集,还有数据对应的标签。主要的任务是要让预测值尽量接近于这些标签。 监督学习还有一个很重要的特点,就是它的数据要满足独立性。这对于使用SGD等算法,需要对数据进行采样时非常重要。 而在强化学习中却没有这些假...

2018-11-23 20:52:44

阅读数:29

评论数:0

强化学习第1课:像学自行车一样的强化学习

机器学习算法主要可以分为监督式,非监督式,强化学习三类。 在监督式学习中,我们有数据 x 和标签 y。我们想要找到一个函数来连接 x 和 y。可以选择决策树,线性回归等模型,然后训练这些模型使损失函数达到最小。 例如我们有一个横幅广告预测点击率的问题: 横幅的特征可以是,主题,想要推广的内容,挂...

2018-11-23 20:52:03

阅读数:41

评论数:0

5 分钟入门 Google 最强NLP模型:BERT

BERT (Bidirectional Encoder Representations from Transformers) 10月11日,Google AI Language 发布了论文 BERT: Pre-training of Deep Bidirectional Transformers ...

2018-11-23 20:46:53

阅读数:244

评论数:0

如何应用 BERT :Bidirectional Encoder Representations from Transformers

上一篇文章介绍了 Google 最新的BERT (Bidirectional Encoder Representations from Transformers) ,这个模型在 11 个 NLP 任务上刷新了纪录。 Google 还开源了 BERT 的代码:https://github.com/g...

2018-11-23 20:45:36

阅读数:134

评论数:0

用一个小游戏入门深度强化学习

今天我们来用深度强化学习算法 deep Q-learning 玩 CartPole 游戏。 强化学习是机器学习的一个重要分支,通过强化学习我们可以创建一个 agent,让它与环境不断地互动,不断试错,自主地从中学习到知识,进而做出决策。 如图所示,agent 收到环境的状态 state,做出行动 ...

2018-10-05 03:16:07

阅读数:104

评论数:0

什么是 Q-learning

我们以一个迷宫寻宝的游戏为例来看什么是 Q-learning。 在这个游戏中,agent 从一个给定的位置开始,即起始状态。 在不穿越迷宫墙壁的前提下,在每个状态时,都可以选择上下左右四个方向走一步,或者原地不动, 上下左右这四个动作的每一个都会将 agent 带到网格的一个新的单元格,即新...

2018-09-15 01:35:58

阅读数:90

评论数:0

为什么在优化算法中使用指数加权平均

本文知识点: 什么是指数加权平均? 为什么在优化算法中使用指数加权平均? β 如何选择? 1. 什么是指数加权平均 指数加权平均(exponentially weighted averges),也叫指数加权移动平均,是一种常用的序列数据处理方式。 它的计算公式如下: 其中...

2018-08-05 08:22:02

阅读数:587

评论数:0

为什么需要 Mini-batch 梯度下降,及 TensorFlow 应用举例

本文知识点: 什么是 mini-batch 梯度下降 mini-batch 梯度下降具体算法 为什么需要 mini-batch 梯度下降 batch, stochastic ,mini batch 梯度下降的比较 如何选择 mini batch 的参数 batch size 呢 在 Tens...

2018-07-30 06:38:30

阅读数:937

评论数:0

梯度消失问题与如何选择激活函数

本文结构: 什么是梯度消失? 梯度消失有什么影响? 是什么原因? 解决方案有哪些? 如何选择激活函数? 1. 什么是梯度消失? 梯度消失,常常发生在用基于梯度的方法训练神经网络的过程中。 当我们在做反向传播,计算损失函数对权重的梯度时,随着越向后传播,梯度变得越来越小,这...

2018-07-17 00:45:40

阅读数:1588

评论数:0

cs230 深度学习 Lecture 2 编程作业: Logistic Regression with a Neural Network mindset

本文结构: 将 Logistic 表达为 神经网络 的形式 构建模型 导入包 获得数据 并进行预处理: 格式转换,归一化 整合模型: A. 构建模型 a. 初始化参数:w 和 b 为 0 b. 前向传播:计算当前的损失 c. 反向更新:计算当前的梯度 B. 梯度更新求模型参数 C. 进行...

2018-06-27 12:38:01

阅读数:1645

评论数:1

用 TensorFlow.js 在浏览器中训练神经网络

本文结构: 什么是 TensorFlow.js 为什么要在浏览器中运行机器学习算法 应用举例:regression 和 tflearn 的代码比较 1. 什么是 TensorFlow.js TensorFlow.js 是一个开源库,不仅可以在浏览器中运行机器学习模型,还可以训练模...

2018-06-20 11:17:10

阅读数:6119

评论数:2

LightGBM 如何调参

本文结构: 什么是 LightGBM 怎么调参 和 xgboost 的代码比较 1. 什么是 LightGBM Light GBM is a gradient boosting framework that uses tree based learning algorithm...

2018-06-16 07:58:07

阅读数:6011

评论数:1

SVM 的核函数选择和调参

本文结构: 1. 什么是核函数 2. 都有哪些 & 如何选择 3. 调参 1. 什么是核函数 核函数形式 K(x, y) = <f(x), f(y)>, 其中 x, y 为 n 维,f 为 n 维到 m 维...

2018-06-08 08:15:22

阅读数:3764

评论数:0

提示
确定要删除当前文章?
取消 删除