- 博客(84)
- 收藏
- 关注
原创 强化学习笔记四 DP, MC, TD小结
前两篇介绍了三种RL方法,DP,MC和TD,本篇进行一个总结和对比。Backup先来看看backup的区别:DPMCTDBootstrapping & samplingBootstrapping指更新中包含估计值,sampling指用期望来更新DPBootstrap, does not sampleMCno Bootstrap, sampleTDBootst...
2018-10-12 00:18:53
3524
原创 强化学习笔记三 Monte Carlo Method & Temporal-Difference Method
之前笔记二中介绍了求解MDP的model based方法,本篇笔记介绍两种model-free方法,Monte Carlo(MC) 和 Temporal-Difference(TD)。model-free methods先说说model free的好处,前面我们用DP求解需要知道MDP的所有信息,即状态转移矩阵和反馈,但大多数现实情况中,agent在还未与环境交互之前是不知道环境的信息。在这种...
2018-10-12 00:09:26
624
原创 强化学习笔记一 N-armed bandit Problem
本篇笔记是RL学习的入门,介绍N-Bandit问题和解决算法。N-Bandit问题N-Bandit问题指在每一步你都有n种选择,每一个选择会给你一定的回报,目标是尽量获得最高的收益。先定义估计值Qt(a)=(R1+R2+...+RKa)/Ka{Q_t(a) = (R_1 + R_2 + ... + R_{K_a}) / K_a}Qt(a)=(R1+R2+...+RKa)/Ka,即...
2018-10-04 06:27:08
2401
原创 强化学习笔记二 MDP & DP
本篇笔记将会介绍强化学习的基本概念,马尔可夫决策过程MDP,Bellman方程和动态规划求解MDP问题。基本概念history and statehistory 是一系列观察,行动和奖励的集合。state是history的函数,包含当前状态的信息,并用于决定下一时刻的行动。policyπ(a∣s){\pi(a|s)}π(a∣s)代表在状态s下采取行动的策略,换言之就是采取行动a的概率。p...
2018-10-04 05:34:27
1692
原创 密码学入门笔记二
上一篇笔记主要讲了三种加密算法以及RSA的原理,这一篇来看一下几种具体的对称加密算法,非对称加密算法和哈希散列算法。对称加密算法对称密码指加密和解密都用相同的密匙,主要有分为分组密码和序列密码。分组密码对一个数据表示为一定长度的梳子序列,划分为长度为n的组,再用密匙分别对每一组进行加密。 Feistel 序列密码 密码模式...
2018-09-28 11:04:14
286
原创 密码学入门笔记一
密码学入门笔记一本篇是可汗学院公开课:现代密码学的笔记公开密匙学随着通信技术的发展,对信息加密有了要求。问题是A与B之间的消息是公开的,可以被C看到,那么如何做到使C不知道该信息。1976年Whitefield和Martin提出了一个基于单向函数的方法,叫做Diffie-Hellman key exchange。单向函数指从一侧到另一侧过程简单,反向过程困难的函数。以颜色为例,A,B均有各...
2018-09-22 05:43:11
473
原创 概率图模型笔记
定义简单来说就是用图来表达变量之间关系的模型,可分为两类,有向图和无向图。有向图有向图又称为贝叶斯网HMM 隐式马尔科夫模型无向图无向图又称为马尔可夫网...
2018-09-13 03:09:43
273
原创 机器学习 算法总结(二) 调参技巧
偏差和方差在统计学习框架下,Error = Bias + Variance。Error指的模型的预测错误率,由两部分组成,一部分是由于模型太简单而带来的估计不准确的部分(Bias),另一部分是由于模型太复杂而带来的更大的变化空间和不确定性(Variance)。 如果要降低模型的Bias,就一定程度上会提高模型的Variance,反之亦然。根本原因是如果我们更相信训练数据的真实性,忽视对模型的...
2018-08-16 14:50:13
6988
原创 问题生成(QG)总结
这个暑假做了个QG的调研和复现了模型,做一个总结。文中涉及的文章详细介绍可见论文阅读 Question Generation 背景: 为什么要研究QG? 从人的经验看,好的学习者一定是擅长提问的。机器知识库作为“学习者”,也许可以利用主动提问来高效构建或者补充知识库,扩充数据集等等。 现在的一些应用场景:在教育领域,帮助学生来提问;在对话领域,作为冷启动来开始一个话题或者通过提问...
2018-08-09 15:31:35
3676
7
原创 论文阅读 seq2seq模型的coverage机制
Get To The Point: Summarization with Pointer-Generator NetworksAbigail See, Peter J. Liu, Christopher D. Manning Standford University & Google Brain, 2017这是ACL2017上的一篇文章,提出了coverage机制,目的是为了解决...
2018-08-09 15:04:23
9145
原创 排序算法
先放张结论:borrow from排序算法-八大排序实现和性能比较快速排序i,j是两个位置标记,分别从左和右端向中间逼近先选定list中一个数为base,j从后往前找,如果发现比base小,则将base替换成这个数,i开始往后找比base大的数,如果有,替换掉j处的数字,直至ij两者相遇,此时放回base到i的位置。这个过程将比base小的数都移到了左边,比base大的数都移到了...
2018-08-01 21:57:29
215
原创 讲座笔记 transfer learning via learning to transfer
transfer learning via learning to transferYing Wei突然发现一年前听过师姐的讲座,当时没来得及细看文章,更详细的笔记见:论文笔记背景:Transfer learning: 从标注数据多的领域到少的领域Research issue: when, how, what to transfer?有的语义相关,有的关联较少For...
2018-07-31 22:47:55
1012
原创 tensorflow笔记 tf.Print()
调试程序的时候,经常会需要检查中间的参数,这些参数一般是定义在model或是别的函数中的局部参数,由于tensorflow要求先构建计算图再运算的机制,也不能定义后直接print出来。tensorflow有一个函数tf.Print(),当然用python本身的print也可以,这个稍后提及。 tf.Print(input, data, message=None, first_n=None,...
2018-07-26 21:30:25
31726
6
原创 attention机制
(一)tensorflow入门笔记(二)RNN,LSTM和GRU原理(三)attention机制(四)seq2seq实例详解背景:seq2seq模型decoder的初始状态一般直接设为encoder最后的隐藏层状态,但是这样输入中较早的信息很容易丢失,在文本较长的情况下decoder不能很好得获取对应的输入信息。有人提出类似人的注意力机制,给对应的输入部分一个更高的权重,使...
2018-07-26 00:25:49
2297
原创 seq2seq实例详解(待完成)
seq2seq实例详解(待完成) 比较好的博客:https://blog.csdn.net/wangyangzhizhou/article/details/77883152https://blog.csdn.net/leadai/article/details/78809788
2018-07-25 00:25:45
830
原创 训练中文词向量 word2vec
理论:embedding简单来说就是用向量表示词汇,最早使用的都是one-hot向量,一个维度代表一个单词,长度为词典的长度。优点是简单明了,缺点是占用空间大,无法表示词与词之间的相似度。2013年google提出了word2vec,主要包含两个模型CBOW(continuous bag of word)和skip-gram。通过模型将词向量减小到特定的维度,这种方法一定程度上可以通过余弦相似...
2018-07-24 10:34:36
1024
原创 tensorflow笔记 embedding_lookup
tensorflow中有一个函数embedding_lookup可以很方便地将输入转化为嵌入矩阵。一般方便起见,我们会使用一个由随机数组成的embedding矩阵,但效果个人觉得和one-hot差不太多。这个矩阵仅仅是初始化矩阵,在更新权重的时候是会改变的。实现很简单:inputs = tf.placeholder(tf.int32, name='inputs')with tf.var...
2018-07-23 17:05:56
1957
1
原创 tensorflow笔记 变量
用jupyter调试模型的时候,经常会遇到类似的错误Variable embedding already exists, disallowed. Did you mean to set reuse=True or reuse=tf.AUTO_REUSE in VarScope?Variable encoder/embedding does not exist, or was not cr...
2018-07-20 11:30:58
1872
翻译 tensorflow1.9新功能 autograph
最近tf更新了一个新功能autograph,可以将python代码转化为计算图的形式,从而大幅提升效率。源码安装:pip install -U tf-nightly导入:from tensorflow.contrib import autograph as ag调用autograph有两种方式,一种是声明,另一种是调用封装的api#直接对函数声明@ag...
2018-07-19 10:32:15
1690
原创 讲座笔记 如何解释模型
这周讲座的内容是一篇2016年KDD的文章 “why should I trust you?” Explaining the Predictions of Any Classifier,作者是华盛顿大学的Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin。最近欧盟出了一项法案: “In the regulation of algorithms...
2018-07-18 14:40:22
2398
原创 seq2seq模型笔记
记一下一些坑tensorflow的版本很重要,强烈推荐tf-gpu 1.5或1.6tf新版本更新了beam search功能,不需要自己再实现了,infer用tf.contrib.seq2seq.BeamSearchDecoder即可,相比Greedy helper,只需要把output矩阵从原来的[batch_size, decoder_target_length]改成[batch_si...
2018-07-18 10:14:34
756
原创 论文阅读 seq2seq模型的copy机制
论文阅读Pointer NetworkPointing Unknown Word论文阅读Pointer NetworkPointing Unknown Word
2018-07-17 15:14:16
9618
原创 论文阅读 QA与QG联合学习
论文Question Generation for Question AnsweringQuestion Answering and Question Generation as Dual TasksA Joint Model for Question Answering and Question Generation论文Question Generation fo...
2018-07-17 15:05:00
2626
原创 论文阅读 Question Answering
论文Generating High-Quality and Informative Conversation Responses with Sequence-to-Sequence ModelsTopic Aware Neural Response Generation论文Generating High-Quality and Informative Conve...
2018-07-17 14:58:20
2302
原创 tensorflow笔记 查看模型的参数
tensorflow在contrib下有一个函数slim,导入方式:import tensorflow.contrib.slim as slim我在用saver()读取之前模型的时候多次遇到了attempting to use uninitialized variable的问题,因此需要查看读取的变量。 在存模型或读模型之前用slim可以去查看存了哪些变量model_vari...
2018-07-11 15:00:58
4032
原创 python 题目
求输出 f0,f1,f2 = [lambda x:x*i for i in range(3)]print(f0(1),f1(2),f2(3))#2 4 6 这个原理很简单,其实就是f0 = f1 = f2 = x * 2,循环中i的根本不会输出 leetcode上有个题目要求获得所有子域名,比如mail.126.com,子域名:com,126.com,mail.126.co...
2018-07-11 09:54:15
388
原创 RNN,LTSM和GRU原理
(一)tensorflow入门笔记(二)RNN,LTSM和GRU原理(三)attention机制与tensorflow中attention的封装(四)seq2seq实例详解RNNRNN主要用来处理当样本是一定时间序列的情况,例如一段语音,一串文本等等。这类任务如果用CNN处理,很难反映出其时间上的特征 原理 Figure 1. RNN Structure时间为...
2018-07-11 09:41:09
3134
原创 Markdown 命令
需要打公式所以转用markdown模式,发现和latex区别还是蛮大的,有很多快捷键加粗 **text**斜体 *text*缩进 :换行 <br>新段落 <p>内容 >符号列表(黑点) -符号列表(-) --分割线 ------------标题 #一级标题 ##二级标题 以此类推到六级字体...
2018-07-11 09:14:45
428
原创 微信itchat接口:查看自己微信的信息
itchat是python的一个api,可以访问自己的微信信息,功能还蛮好玩的,可以扒取朋友信息,自动回复短信等等。 package:itchat1.3.10 + python3.5 + wordcloud1.4.1登录登出:itchat.login()#hotReload设置为True,可以保持一段时间登录itchat.autologin(hotReload=True)...
2018-07-09 10:29:14
3555
1
原创 python 笔记
随笔,内容比较杂,持续更新中访问文件方式: r, w, a, rb, wb r是读取,w是写入,a是在末尾追加,rb是读取二进制,wb是写入二进制 保存,读取pkl文件 直接存为txt,文件读取速度比较慢,存为pkl可以加快速度 list,dict都可以直接保存为pkl文件: import picklewith open(save_path, 'wb') as f: ...
2018-07-08 23:43:18
236
原创 python 列表,元组,字典笔记
持续更新中创建定长的list: a = [0] * 5#[0,0,0,0,0]a = [[0]*2 for _ in range(3)]#[[0, 0], [0, 0], [0, 0]] 移除list中元素:remove,pop,del list.remove('a') 移除首个符合条件的元素 del list 删除list or del list[1,3] 删除lis...
2018-06-29 09:30:39
434
原创 linux常用命令
linux下的一些常用命令 cd 改变目录到...pwd 显示当前绝对路径ls 显示当前目录文件ll 显示当前目录文件信息 mkdir 创建新文件夹rm 删除文件rm -r 删除文件夹rm -f 强制删除文件rm -f -r 强制删除文件夹mv file path 将file移动到pathmv file1 file2 将file1重命名为file...
2018-06-26 23:47:03
409
原创 linux下anaconda创建新的环境
因为需要在linux下跑gpu,配置了一下环境,发现anaconda真的很方便环境:anaconda2 + python3.6 + tensorflow-gpu1.5.0注意:TF从1.6.0开始,需要GPU支持AVX!! 先确认一下anaconda的位置which conda 创建一个新的python3环境,新环境一般会安装在anaconda/bin/envs下,也可...
2018-06-26 23:39:36
12274
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人