luchi007的专栏

stay foolish!

Online learning系列:从RDA、FOBOS到FTRL

前言 在一般的机器学习任务中,往往是通过batch的训练方法进行离线训练,然后线上进行预测,通常离线模型更新的时间在1天以上,这就使得模型不能及时学到实时的特征;另一方面,如果要进行实时训练的话,需要特征尽量稀疏,因为大规模的机器学习往往伴随着大量的参数,如果做不到特征计量稀疏的话,实时预估时延就...

2018-12-05 11:41:54

阅读数 174

评论数 0

Reinforcement Learning强化学习系列之五:值近似方法Value Approximation

引言 前面说到了强化学习中的蒙特卡洛方法(MC)以及时序差分(TD)的方法,这些方法针对的基本是离散的数据,而一些连续的状态则很难表示,对于这种情况,通常在强化学习里有2中方法,一种是针对value function的方法,也就是本文中提到的值近似(value approximation);另一...

2018-02-09 23:12:18

阅读数 873

评论数 0

Reinforcement Learning强化学习系列之四:时序差分TD

引言 前面一篇讲的是蒙特卡洛的强化学习方法,蒙特卡罗强化学习算法通过考虑采样轨迹,克服了模型未知给策略估计造成的困难,不过蒙特卡罗方法有一个缺点,就是每次需要采样完一个轨迹之后才能更新策略。蒙特卡洛方法没有充分利用学习任务的MDP结构,而时序差分学习方法Temporal Difference(T...

2018-01-02 21:04:47

阅读数 2588

评论数 2

Reinforcement Learning强化学习系列之三:MC Control

引言 前面一篇文章中说到了MC prediction,主要介绍的是如何利用采样轨迹的方法计算Value函数,但是在强化学习中,我们主要想学习的是Q函数,也就是计算出每个state对应的action以及其reward值,在这篇文章中,将会介绍。 MC control with epsilon...

2017-12-24 11:40:10

阅读数 927

评论数 0

Reinforcement Learning强化学习系列之二:MC prediction

引言 这几个月一直在忙找工作和毕业论文的事情,博客搁置了一段时间,现在稍微有点空闲时间,又啃起了强化学习的东西,今天主要介绍的是强化学习的免模型学习free-model learning中的最基础的部分蒙特卡洛方法(Monte Carlo),并以21点游戏作为说明。 本文主要参考的文献是[1]...

2017-12-23 11:40:38

阅读数 1363

评论数 0

Reinforcement Learning强化学习系列之一:model-based learning

前言在机器学习和深度学习坑里呆了有一些时日了,在阿里实习过程中,也感觉到了工业界和学术界的一些迥异,比如强化学习在工业界用的非常广泛,而自己之前没有怎么接触过强化学习的一些知识,所以感觉还是要好好的补一补更新一下自己的知识库,以免被AI时代抛弃。强化学习初识强化学习要素强化学习可以用下面这张图表示...

2017-09-03 12:08:47

阅读数 8497

评论数 7

pytorch入门

pytorch的入手博文,介绍了pytorch的一些语法规范,和搭建一些常用的神经网络内容,以及和tensorflow的一些比较

2017-06-08 17:31:16

阅读数 19356

评论数 0

tensorflow高阶教程:tf.dynamic_rnn

引言TensorFlow很容易上手,但是TensorFlow的很多trick却是提升TensorFlow心法的法门,之前说过TensorFlow的read心法,现在想说一说TensorFlow在RNN上的心法,简直好用到哭 【以下实验均是基于TensorFlow1.0】简要介绍tensorflow...

2017-05-02 11:27:07

阅读数 44333

评论数 13

Tensorflow高阶读写教程

前言tensorflow提供了多种读写方式,我们最常见的就是使用tf.placeholder()这种方法,使用这个方法需要我们提前处理好数据格式,不过这种处理方法也有缺陷:不便于存储和不利于分布式处理,因此,TensorFlow提供了一个标准的读写格式和存储协议,不仅如此,TensorFlow也提...

2017-04-24 21:54:19

阅读数 14615

评论数 6

Tensorflow的采样方法:candidate sampling

TensorFlow candidate sampling

2017-04-10 18:29:49

阅读数 5813

评论数 0

受限制玻尔兹曼机(RBM)用于电影推荐小例

引言前一篇简要的介绍了受限制玻尔兹曼机原理的文章,RBM的应用有很多,本文打算根据这篇博文的例子做一个使用RBM进行电影推荐的系统.数据来源数据来源:[Movielens movie dataset],(http://grouplens.org/datasets/movielens/1m/) 鸣...

2017-03-13 22:07:24

阅读数 5337

评论数 2

受限制玻尔兹曼机RBM原理简介

引言 受限玻尔兹曼机RBM在深度学习领域一直有重要的应用,之前一直没有接触过RBM,觉得太复杂,公式太多,这几天在Google上找到些好的turtorial,可以在这里做一个总结。 玻尔兹曼机BM BM背景 Boltzmann machines(BM)是Markov Random ...

2017-03-10 12:49:58

阅读数 14129

评论数 1

理解和解决Python2中的编码问题

前言经常处理一些文本,处理英文语料没什么问题,但是到了中文这儿就让人抓狂了,稍微不注意就会窜出各种乱码错误,平时出现几个小错误试试调调也能过去,但是对于编码这个问题还是畏惧,这几天好好整理了一下python的编码问题,感谢万能的Google和万能的StackOverflow,算是解决了我当前对编码...

2017-02-25 18:09:40

阅读数 12724

评论数 0

简单的PRML阅读笔记

PRML简单的阅读笔记,些微Mark一下

2017-02-20 10:36:06

阅读数 758

评论数 0

tensorflow实现基于LSTM的文本分类方法

使用tensor flow实验基于LSTM 的文本分类方法

2016-11-25 14:47:13

阅读数 42620

评论数 170

tensorflow中cifar-10文档的Read操作

前言 在tensorflow的官方文档中得卷积神经网络一章,有一个使用cifar-10图片数据集的实验,搭建卷积神经网络倒不难,但是那个cifar10_input文件着实让我费了一番心思。配合着官方文档也算看的七七八八,但是中间还是有一些不太明白,不明白的mark一下,这次记下一些已经明白的。 ...

2016-11-20 22:29:52

阅读数 2740

评论数 1

Hadoop笔记之三:WordCount实验续

## 引言 ## 在上一篇的文章中,基本了解了Hadoop的Map-Reduce大致框架,根据官方教程,对WordCount实验有了新的补充,补充基本是在Map-Reduce中加入作业Job的一些控制信息,这就来看下。 ## 实验 ## 先上文档的代码package com.luchi...

2016-11-11 10:30:44

阅读数 690

评论数 0

Hadoop笔记之二:运行WordCount实验

实验环境Hadoop版本:Hadoop2.7.3 linux版本:Ubuntu JDK版本:JDK1.7实验步骤 设置HADOOP的PATH和HADOOP CLASSPATH(这里假设java的相关路径已经配置好) export HADOOP_HOME=/home/luchi/Hadoop/h...

2016-10-17 16:02:47

阅读数 4613

评论数 0

Hadoop笔记之一:安装单节点集群

Hadoop入坑搞数据挖掘的还不会Hadoop/spark,感觉各种丢人,看了一眼天池的比赛,都不知道从哪儿下手,决定痛下决心搞一搞Hadoop,也算是渣硕的救赎吧。之前还在犹豫是从Hadoop开始还是从spark开始,虽然spark最近很流行,据说还有替代Hadoop的趋势,不过毕竟spark是...

2016-10-10 20:11:15

阅读数 1340

评论数 0

关于最大似然与交叉熵损失函数和最小二乘法的思考

最大似然估计与logistic交叉熵损失函数以及线性回归过程中的最小二乘法的关系理解

2016-10-07 15:07:28

阅读数 6451

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭