- 博客(16)
- 收藏
- 关注
原创 【让你五行代码发一篇文章】如何把DNA序列编码成深度学习的向量化输入——GP-GCN框架教程
把DNA序列编码成深度学习的向量化输入的GP-GCN框架
2022-09-17 19:26:47 1852 3
原创 Datawhale NLP课程 Task7
机器问答模型加载数据集和前面一样,使用函数load_dataset和load_metric来下载数据并得到需要的评测指标。Preprocessing the training data在将数据喂入模型之前,我们需要对数据进行预处理。预处理的工具叫Tokenizer。Tokenizer首先对输入进行tokenize,然后将tokens转化为预模型中需要对应的token ID,再转化为模型需要的输入格式。tokenizer既可以对单个文本进行预处理,也可以对一对文本进行预处理,tokenizer预处理
2021-08-30 21:10:51 159
原创 Datawhale NLP课程 Task6
序列标注 (token级的分类问题)序列标注,通常也可以看作是token级别的分类问题:对每一个token进行分类。最常见的token级的分类任务NER (Named-entity recognition 名词-实体识别) 分辨出文本中的名词和实体 (person人名, organization组织机构名, location地点名…).POS (Part-of-speech tagging词性标注) 根据语法对token进行词性标注 (noun名词, verb动词, adjective形容词…)
2021-08-29 00:49:18 119
原创 Datawhale NLP课程 Task5
Transformers解决文本分类任务、超参搜索微调预训练模型进行文本分类9个句子级别的分类任务:CoLA (Corpus of Linguistic Acceptability) 鉴别一个句子是否语法正确.MNLI (Multi-Genre Natural Language Inference) 给定一个假设,判断另一个句子与该假设的关系:entails, contradicts 或者 unrelated。MRPC (Microsoft Research Paraphrase Corpus)
2021-08-26 21:12:59 166
原创 Datawhale NLP课程 Task4
BERT-based Models应用模型BertForPreTrainingBERT 预训练任务包括两个:Masked Language Model(MLM):在句子中随机用[MASK]替换一部分单词,然后将句子传入 BERT 中编码每一个单词的信息,最终用[MASK]的编码信息预测该位置的正确单词,这一任务旨在训练模型根据上下文理解单词的意思;Next Sentence Prediction(NSP):将句子对 A 和 B 输入 BERT,使用[CLS]的编码信息进行预测 B 是否 A 的下一
2021-08-24 21:33:17 128
原创 Datawhale NLP课程 Task3
BERT结构:BERT Tokenization 分词模型(BertTokenizer)BasicTokenizer负责处理的第一步——按标点、空格等分割句子,并处理是否统一小写,以及清理非法字符。WordPieceTokenizer在词的基础上,进一步将词分解为子词(subword)。BERT Model 本体模型(BertModel)2.1 BertEmbeddings根据单词符号获取对应的向量表示2.2 BertEncoder2.2.1 BertLayer2.2.1.
2021-08-21 23:54:55 126
原创 Datawhale NLP课程 Task2
图解BERTBERT是一个经典的利用transformer的模型。使用 BERT 最直接的方法就是对一个句子进行分类。模型如下:为了训练这样一个模型,你主要需要训练分类器(上图中的 Classifier),在训练过程中 几乎不用改动BERT模型。这个训练过程称为微调。模型架构BERT BASE: 与OpenAI的transformer大小相当,以便比较性能。BERT LARGE: 一个巨大的模型,它取得了最先进的结果。、输入:就像 Transformer 中普通的 Encoder 一样,BE
2021-08-21 00:02:32 100
原创 Datawhale NLP课程 Task2
图解Attentionseq2seq模型输入:一个序列;输出:另一个序列模型细节:seq2seq模型是由encoder和decoder组成,encoder处理输入序列中的每个元素,把这些信息转成一个向量(称为上下文context),整个序列输入完成后,encoder把context发送给decoder,decoder生成输出序列中的元素。在transformer出现之前,encoder和decoder一般用RNN实现。context向量的长度是基于编码器RNN的隐藏层神经元的数量。RNN在时间步上
2021-08-17 21:10:05 113
原创 Task08 总结
本次参加datawhale的图神经网络学习,从2021.06.14-2021.07.10,共完成了7个task,以下为task总结:Task 01 简单图论与环境配置与PyG库主要学习Pytorch和PyG库的安装以及相关环境配置,因为之前有安装过,所以这个task混过去了。Task 02 消息传递范式学习GNN中的消息传递范式,对GNN的原理了解更加清楚,但对MessagePassing基类每个函数的作用还是有点不清楚,以后有机会再弄清楚。Task 03 基于图神经网络的节点表征学习学习图神
2021-07-10 18:50:20 84
原创 Task 07 图预测任务实践
Introduction在前面的学习中我们只接触了数据可全部储存于内存的数据集,这些数据集对应的数据集类在创建对象时就将所有数据都加载到内存。然而在一些应用场景中,数据集规模超级大,我们很难有足够大的内存完全存下所有数据。因此需要一个按需加载样本到内存的数据集类。Dataset基类介绍在PyG中,我们通过继承torch_geometric.data.Dataset基类来自定义一个按需加载样本到内存的数据集类。继承torch_geometric.data.InMemoryDataset基类要实现的方
2021-07-10 00:48:41 141
原创 Task06 基于图神经网络的图表征学习方法
介绍图表征学习要求根据节点属性、边和边的属性(如果有的话)生成一个向量作为图的表征,基于图表征我们可以做图的预测。基于图同构网络(Graph Isomorphism Network, GIN)的图表征网络是当前最经典的图表征学习网络,我们将以它为例,通过该网络的实现、项目实践和理论分析,三个层面来学习基于图神经网络的图表征学习方法。基于图同构网络(GIN)的图表征网络的实现...
2021-07-04 20:35:43 264
原创 Task05 超大图上的节点表征学习
随着图神经网络层数增加,计算成本呈指数增加。包存整个图的信息和每个节点的表征消耗了大量内存空间。Cluster-GCN提出了一种新的图神经网络的训练方法。Cluster-GCN方法概括利用图节点聚类的算法将一个图划分成ccc个簇,每一次选择几个簇的节点和这些节点对应的边构成一个子图。簇内部边的数量比簇之间的数量要多得多,可以提高表征利用率。每一次随机选择多个簇来组成一个batch,这样不会丢失簇之间的边,也不会有batch内部分布偏差太大。Cluster-GCN方法详细分析假设GCN有LLL
2021-07-01 23:23:31 208
原创 Task04 数据完整存储与内存的数据集类+节点预测与边预测任务实践
数据完整存储与内存的数据集类使用数据集的一般过程从网络上下载数据原始文件;对数据原始文件做处理,为每一个图样本生成一个Data对象;对每一个Data对象执行数据处理,使其转换成新的Data对象;过滤Data对象;保存Data对象到文件;获取Data对象,在每一次获取Data对象时,都先对Data对象做数据变换(于是获取到的是数据变换后的Data对象)。...
2021-06-27 23:58:02 127
原创 Task 03 基于图神经网络的节点表征学习
本次学习图神经网络的一般过程,直接放代码,对比MLP, GCN和GAT在cora数据集上做节点分类的效果:from torch_geometric.datasets import Planetoidfrom torch_geometric.transforms import NormalizeFeaturesfrom torch_geometric.nn import GCNConv, GATConvimport matplotlib.pyplot as pltfrom sklearn.manif
2021-06-23 22:20:57 201 2
原创 Task 02 消息传递图神经网络
学习目标学习message passing范式初步分析PyG中的MessagePassing基类学习对MessagePassing基类的继承消息传递范式神经网络生成节点表征的操作称作node embeddingnode embedding应该可以衡量节点之间的相似性data.x是第0层的节点表征,第hhh层节点表征经过一次节点间信息传递产生第h+1h+1h+1层的节点表征MessagePassing基类分析PyG提供了MessagePassing基类,它封装了消息传递的运行流程。构
2021-06-19 21:04:15 316
原创 Task 01 简单图论与环境配置与PyG库
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
2021-06-16 21:15:35 171
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人