AI学习
一枚石头
这个作者很懒,什么都没留下…
展开
-
自监督学习
1. 两种基本的学习范式(1)有监督的学习:利用大量的标注数据来训练模型,计算模型预测结果和真实标签之间的损失,反向传播,通过不断地学习,最终可以获得识别新样本的能力。(2)无监督的学习:不依赖任何的标签值,通过对数据内在特征的挖掘,找到样本间的关系。如聚类任务、降维、离散点检测等。有监督和无监督最主要的区别是模型在训练时是否需要人工标注的标签信息。...原创 2022-03-31 15:46:28 · 4342 阅读 · 2 评论 -
LSTM讲解
https://zhuanlan.zhihu.com/p/32085405转载 2022-03-22 21:13:57 · 189 阅读 · 0 评论 -
深度学习中的注意力机制
https://blog.csdn.net/qq_40027052/article/details/78421155转载 2022-03-22 21:13:15 · 161 阅读 · 0 评论 -
GNN GCN和GAT
在阅读论文的时候突然就对GNN、GCN和GAT这几个概念有一点疑惑。GNN和GCN的关系是什么?简单的查阅了一些资料,初步的有个概念就是:GNN是处理图数据这种非欧式空间数据的一种Deep Neural Network。是一个比较大的概念。而GCN、GAT都是GNN的一种。GCN是将卷积应用到图数据上,其数学基础呢是利用拉普拉斯矩阵而GAT是将注意力系数应用到图数据上。GCN和GAT都是将邻居节点的特征聚合到中心节点上(一种aggregate运算)。但是GCN是一种全图的计算方式,一次计算就更原创 2022-03-18 14:30:29 · 2601 阅读 · 0 评论 -
Scheduled Sampling
参考博客:https://www.cnblogs.com/panfengde/p/10315576.html在Seq2seq模型中,训练时以一个概率P选择模型自身的输出作为下一个预测的输入,以1-P的概率选择真实标记作为下一个预测的输入。并且采样率P在训练过程中是变化的,一开始训练不充分,先让P小一些,尽量使用真实的label作为输入,随着训练的进行,将P增大,多采用自身的输出作为下一个预测的输入。随着训练的进行,P越来越大,train-decoder模型最终变来和inference-decoder预转载 2022-03-09 19:12:44 · 160 阅读 · 0 评论 -
Teacher Forcing
参考博客:https://www.cnblogs.com/dangui/p/14690919.htmlRNN存在两种训练模式:free-running mode:上一个state的输出作为下一个state的输入teacher-forcing mode:直接使用训练数据的ground truth的对应的上一项作为下一个state的输入。如:给定一个输入序列(首尾都已加上起止符号)如下[START] Mary had a little lamb whose fleece was white as转载 2022-03-09 19:11:46 · 558 阅读 · 0 评论 -
GCN及我未填的坑
GCN的问世:CNN、RNN无法处理图数据的结构。CNN主要用于处理图片,图片是一个二维的结构。CNN的核心在于它的kernel,kernel是一个个小窗口,在图片上平移,通过卷积的方式来提取特征。这里的关键在于图片结构上的平移不变性:一个小窗口无论移动到图片的哪一个位置,其内部的结构都是一模一样的,因此CNN可以实现参数共享。这就是CNN的精髓所在。RNN主要用于处理自然语言这样的序列信息,这样的序列信息是一个一维的结构。RNN通过各种门的操作,使得序列前后的信息互相影响,从而很好地捕捉序列的特征。原创 2022-03-08 20:28:32 · 331 阅读 · 0 评论 -
Recursive Neural Network/递归神经网络
循环神经网络(Recurrent NN)可以用来处理包含序列结构的信息。通过将长度不定的输入分割为等长度的小块,然后再依次的输入到网络中,从而实现了神经网络对变长输入的处理。一个典型的例子是,当我们处理一句话的时候,我们可以把一句话看作是词组成的序列,然后,每次向循环神经网络输入一个词,如此循环直至整句话输入完毕,循环神经网络将产生对应的输出。如此,我们就能处理任意长度的句子了。但是除此之外信息往往还存在着诸如树结构、图结构等更复杂的结构,如”两个外语学院的学生“,是有歧义的,一个是『两个外语学院的/学生原创 2022-03-08 15:35:54 · 634 阅读 · 0 评论 -
Memory Networks
Memory NetworksMemory network(MemNN)是Facebook AI在2015年提出来的。主要目的是:利用记忆组件保存场景信息,以实现长期记忆的功能。作者提到对于很多神经网络模型,如RNN、LSTM及其变种GRU虽然使用了一定的记忆机制,但是这些记忆都太小了。所以本文引入了一种可读写的外部记忆模块。记忆网络的主要架构如下图所示,包括了记忆m和4个组件I、G、O、R。其中I、G、O有点像LSTM的三个门。I(Input):用于将输入转化为网络里内在的向量。G(Ge原创 2022-03-08 15:04:51 · 925 阅读 · 0 评论