DATAWHALE
文章平均质量分 55
kaguya1004
这个作者很懒,什么都没留下…
展开
-
【学习小记】BERT+GPT
睡了一下午把所有状态都睡没了。。。但还是不要错过打卡!BERT这是第二遍整理了,对BERT的印象:非常类似于CV中的VGG16这样的特征提取网络。。。词嵌入的新时代—ELMo embeddings首先明确一下词嵌入是啥:单词无法直接输入进机器学习模型,通过词嵌入,我们可以使用向量来表示单词及单词之间的关系。词嵌入一般使用预训练好的。为啥这里说新时代呢,主要是最普通的词嵌入,一个单词永远是相同的向量。但一个单词常常有多重含义,也有很多固定搭配,为啥不能根据上下文来学习对应的词嵌入呢?因此就来到了语境原创 2021-08-20 22:42:16 · 174 阅读 · 0 评论 -
【学习小记】Transformer:Seq2seq model with self-attention
很久之前就想了解Transformer了,一直没行动。。。这次DataWhale给机会了便冲,本来想学西瓜书来着,南瓜书都准备好了。。。以及学习内容真是一次比一次硬核,图神经网络感觉还是可以的,但这个真的。。。不然我也不会提前一天写笔记,赶在最后一晚绝对整不完呀。。。seq2seq模型序列到序列模型,顾名思义就是一个序列生成另一个序列。由编码器和解码器组成,其中编码器会把信息转换为一个向量(上下文context)。整个序列处理完后编码器把context发送给解码器,解码器再逐项生成输入序列中的元素。原创 2021-08-18 21:25:39 · 200 阅读 · 0 评论 -
【学习小记】最后的任务!创建数据集!
一个月就这么过去了,好快啊~暂且不研究类里的东西了=-=先看一下一些比较实用的一些功能合并大图组成小图小图的邻接矩阵存储在大图邻接矩阵的对角线上。大图邻接矩阵、属性矩阵、预测目标矩阵分别为:通过如下方法就可以啦。先截图=-=PDF不能复制文字...原创 2021-07-09 23:18:37 · 62 阅读 · 0 评论 -
【学习小记】基于图神经网络的图表征学习方法
能学一点是一点吧。本次教程依旧来自DataWhale.基于图神经网络的图表征学习方法图表征学习,一言以蔽之,用图学图。基于图同构网络(GIN)的图表征网络的实现图同构网络(Graph Isomorphism Network, GIN)的图表征网络是当前最经典的图表征学习网络。该图表征学习主要包含两个过程:1、首先计算得到节点表征;2、其次对图上各个节点的表征做图池化(Graph Pooling),或称为图读出(Graph Readout),得到图的表征(Graph Representation)。原创 2021-07-05 22:25:10 · 193 阅读 · 2 评论 -
【学习小记+论文笔记】超大图上的节点表征学习-Cluster-GCN
没想到直接上论文了,非常硬核。。。。超大图进行图神经网络训练面临的问题使用普通的基于SGD的图神经网络的训练会面对以下问题:1、随着网络层数增加,计算成本呈指数增长2、保存整个图的信息和每一次每个节点的表征到内存,消耗巨大有些论文提出的方法无需保存整个图的信息和每一层节点的表征,但这些方法可能会损失预测精度或者并没有明显提高显存利用率。所以来学习Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convol原创 2021-07-01 23:03:35 · 296 阅读 · 1 评论 -
【学习小记】数据完整存于内存的数据集类+节点预测与边预测任务实践
本次教程依旧来自DataWhale。GNN组对学习在此之前先补充一个error:CUDA error: the provided PTX was compiled with an unsupported toolchain找了好久,差点重启服务器了。其实是装包的时候,匹配的CUDA版本不对。。。InMemoryDataset这部分不做重点了,自定义一个数据可全部存储到内存的数据集类,简而言之自定义数据集时候用。直接看怎么构造一个数据集。这里用的PubMed来改,虽然Planetoid类包含了,但这原创 2021-06-27 22:15:55 · 649 阅读 · 0 评论 -
【学习小记】基于图神经网络的节点表征学习
本次学习内容来自Datawhale,地址5-基于图神经网络的节点表征学习.md数据集相关出来混迟早要还的=-=首先了解一下数据集的性质print(f'Number of nodes: {data.num_nodes}') # 节点数量print(f'Number of edges: {data.num_edges}') # 边数量print(f'Number of node features: {data.num_node_features}') # 节点属性的维度print(f'Number原创 2021-06-23 23:38:37 · 245 阅读 · 0 评论 -
【学习小记】消息传递图神经网络
睡了一下午,晚上就完全不想学习了。。。卡也不想打考试也不想复习了。。。。以及感觉边看边记笔记这样比较好。消息传递范式有了这个图算是比较明朗了!选定A为target node之后,先更新其他邻接节点,最后更新A。消息传递图神经网络的数学表述:其中那个方框框表示可微分,具有排列不变性(函数输出结果与输入参数的排列无关)γ\gammaγ和ϕ\phiϕ表示可微分的函数。如MLPs.note:此次组对学习约定,节点属性data.x是节点的第0层节点表征,第h层节点表征经过一次节点间的信息传递产生第h+原创 2021-06-19 23:29:48 · 395 阅读 · 2 评论 -
【学习小记】作业记录
import torchimport torch_geometricimport gcclass Data(object): def __init__(self, lunwen=None, jigou=None, zuozhe=None, edge_index=None, edge_a2p=None, edge_a2i=None, y=None, **kwargs): #**kwargs 传入的参数是 dict 类型 # Args: # x (Tensor.原创 2021-06-16 23:39:01 · 69 阅读 · 0 评论 -
【学习小记】零基础入门语音识别Task6-一些拓展知识
语音识别基础语音识别全称为“自动语音识别”,Automatic Speech Recognition (ASR),**一般是指将语音序列转换成文本序列。**即给定输入序列O={O1,…,On},寻找最可能的词序列W={W1,…,Wm},即寻找使得概率P(W|O)最大的词序列。贝叶斯公式表示为:其中P(O|W) 叫做声学模型,描述的是给定词W时声学观察为O的概率;P(W)叫做语言模型,负责计算某个词序列的概率;P(O)是观察序列的概率,是固定的。语音选择的基本单位是帧(Frame),一帧数据是由一小段语原创 2021-04-22 18:14:06 · 144 阅读 · 0 评论 -
【学习小记】零基础入门语音识别-Task5:泛化误差、模型评估、集成学习了解
泛化误差当模型在测试集等除训练集以外数据集表现糟糕时,往往会称模型泛化能力差,也称泛化误差大。泛化能力受到模型结构(复杂度)的影响。这里只讨论对数据集过拟合的情况。当模型太复杂,就容易过拟合,导致模型泛化能力不够即泛化误差大。以树模型为例,树越茂盛,深度越深,枝叶越多,模型就越复杂,因此调参时目标比较明确:减少模型复杂度,防止过拟合。要同时小心过拟合和欠拟合!追求平衡~模型评估两种方法:Holdout检验、交叉检验、留一验证、自助法Holdout检验:数据集按一定比例(一般按七三开)分训练集和原创 2021-04-21 23:28:21 · 303 阅读 · 0 评论 -
【学习小记】零基础入门语音识别-Task4
这次感觉就是着重于整个预测的流程?!最近倒是要用到CNN,简单做一下CNN相关知识的笔记好了。卷积神经网络CNN的结构一般包含这几个层:1)输入层:用于数据的输入2)卷积层:使用卷积核进行特征提取和特征映射------>可以多次重复使用3)激励层:由于卷积也是一种线性运算,因此需要增加非线性映射(也就是激活函数)4)池化层:进行下采样,对特征图稀疏处理,减少数据运算量----->可以多次重复使用5)Flatten操作:将二维的向量,拉直为一维的向量,从而可以放入下一层的神经网络中原创 2021-04-19 22:54:12 · 73 阅读 · 0 评论 -
【学习小记】零基础入门语音识别Task3-特征提取(以及使用playsound播放失败的问题解决方法)
本来是学习打卡的,一时兴起想听听处理的数据到底是个啥动静。。。遂一顿百度,最终锁定playsound,适用于.wav和.mp3格式,且算上头部声明就两行代码,完美!代码如下from playsound import playsound playsound(‘test.mp3’)结果就报了如下的错误一顿搜都没找到是为啥,其实只是需要把音频文件和代码放到同个文件夹下,害。真就人工6分钟的事人工智能6小时呗。。。接下来进入正题。MFCC特征提取MFCC即Mel Frequency Cepstr原创 2021-04-17 23:09:52 · 213 阅读 · 0 评论 -
【学习小记】零基础入门语音识别-Task2赛题数据介绍与分析
今天的内容有点不知道说啥=-=赛题数据集本次比赛的数据集来自Kaggle的“Eating Sound Collection”(可商用), 数据集中包含20种不同食物的咀嚼声音,赛题任务是给这些声音数据建模,准确分类。数据探索几方面收获:波形幅度包络的查看:plt.figure(figsize=(14, 5))librosa.display.waveplot(data1,sr=sampling_rate1)以及声谱图(声音或其他的频率随时间变化的表示)的查看:plt.figure(figs原创 2021-04-16 00:43:02 · 104 阅读 · 0 评论 -
【学习小记】零基础入门语音识别Task1
如题,来自DataWhale的四月学习计划。。。既不懂Tensorflow也不懂语音识别所以更要冲哈哈哈哈哈哈哈既然是识别,大体流程还是没太大变化的,分别为加载深度学习框架加载音频处理库特征提取及数据集的建立建立模型:搭建CNN网络、预测加载深度学习框架和音视频处理库这里没啥太多好说的import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn原创 2021-04-13 23:29:01 · 120 阅读 · 0 评论