- 博客(5)
- 资源 (2)
- 收藏
- 关注
原创 多代理强化学习MARL(MADDPG,Minimax-Q,Nash Q-Learning)
由于强化学习领域目前还有很多的问题,如数据利用率,收敛,调参玄学等,对于单个Agent的训练就已经很难了。但是在实际生活中单一代理所能做的事情还是太少了,而且按照群体的智慧,不考虑训练硬件和时长问题,使用多个agent同时进行学习,会不会有奇招呢?另外如果在需要multi-agent的场景下,如想要完成多人游戏的话,也必须要考虑到多代理的问题。博弈论(game theory)在单个agent...
2019-10-27 17:31:57 11640 10
原创 Graph Convolutional Network (图卷积GCN)
目标:为了解决非规则数据结构 — 学习图上特征映射直觉上想要找到构图结点的特征,一定是与其相关的结点、连接的边有关。那么就直接把每个顶点比如1号结点相邻的结点找出来,虽然相邻的个数可能不一样,设个最大值,然后类似onehot一下,变成统一维度来做不就ok了?但是这样做的缺点在于,必须每个顶点都处理,而且而且而且效果一般。但是我们有图论,甚至还有拓扑学!对于一个图G=(V,E),laplac...
2019-10-25 17:17:33 3437 1
原创 Pretraning in NLP(预训练ELMo,GPT,BERT,XLNet)
图像中的Pretraning往往是在大规模图像集上进行训练后,再在特定的任务上进行fine-turning。而nlp领域的fine-turning就是word embedding了。而词嵌入(例如word2vec,GloVe)通常是在一个较大的语料库上利用词的共现统计预训练得到的。例如king和queen上下文时常相同或相似,所以词向量相似,在向量空间中词距离很近。但是word2vec在训练完...
2019-10-05 14:36:02 4216
原创 Attention 2 Transformer (注意力机制与各种注意力)
Attention出自NMT(神经网络机器翻译)以处理文本对齐问题,目前已经在各个领域发光发彩,玩出各种花样带出多少文章。end-to-end的LSTM版本的NMT模型,两个Deep LSTM分别做encoder 和 decoder。( NMT大部分以Encoder-Decoder结构为基础结构。 翻译模型特别喜欢bidirectional,注意其无法适应在线的缺陷)究竟应该关注哪些时刻的...
2019-10-05 14:35:02 6609 1
原创 Representation Learning(词嵌入NNLM,word2vec,GloVe)
NLP(Natural Language Processing)NLP主要是关注计算机和人类(自然)语言之间的相互作用的领域。如果要想实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成,这也是NLP的两大任务。但处理它的困难之处在于自然语言是一种符号,出现的理由是为了作为一种方便人类进行高效交...
2019-10-05 14:32:42 2277
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人