小鱼^^-CSDN博客

原创 BERT&GPT

BERTBERT：从 Decoder 到 EncoderOpenAI Transformer 为我们提供了一个基于 Transformer 的可以微调的预训练网络。但是在把 LSTM 换成 Transformer 的过程中，有些东西丢失了。ELMo 的语言模型是双向的，但 OpenAI Transformer 只训练了一个前向的语言模型。我们是否可以构建一个基于 Transformer 的语言模型，它既向前看，又向后看（用技术术语来说 - 融合上文和下文的信息）。Masked Language Mod

2021-08-20 18:18:15 1191

原创 Attention和Transformer

Transformer 使用了 Seq2Seq任务中常用的结构——包括两个部分：Encoder 和 Decoder。一般的结构图，都是像下面这样。从整体宏观来理解 Transformer中间部分的 Transformer 可以拆分为 2 部分：左边是编码部分(encoding component)，右边是解码部分(decoding component)其中编码部分是多层的编码器(Encoder)组成（Transformer 的论文中使用了 6 层编码器，这里的层数 6 并不是固定的，你也可以根据

2021-08-17 17:48:29 583

原创 task7 总结

2021课程地址：https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html2021spring视频：https://www.bilibili.com/video/BV11K4y1S7AD?p=5

2021-07-25 19:34:02 152

原创 task6 cnn

CNN架构所以整个CNN的架构是这样的，首先input一张image以后，这张image会通过convolution layer，接下里做max pooling这件事，然后在做convolution，再做max pooling这件事。这个process可以反复无数次，反复的次数你觉得够多之后，(但是反复多少次你是要事先决定的，它就是network的架构(就像你的neural有几层一样)，你要做几层的convolution，做几层的Max Pooling，你再定neural架构的时候，你要事先决定好)。你

2021-07-24 20:05:23 142

原创 task5网络设计的技巧

when gradient is small梯度是0：local min ，local max， saddle pointHij：矩阵i行j列训练遇到saddle，loss一般还能够下降在二维空间中看是local minima 在更高位的空间中看是saddle point？saddle point，eigen value 有正有负；local minima ：eigen value都是正的是minima ratio 0.5 意味着至少还有一半的路可以让 loss下降 local mi

2021-07-20 21:55:11 100

原创 task4 反向传播

梯度下降链式法则连锁影响(可以看出x会影响y，y会影响z)BP主要用到了chain rule反向传播损失函数(Loss function)是定义在单个训练样本上的，也就是就算一个样本的误差，比如我们想要分类，就是预测的类别和实际类别的区别，是一个样本的，用L表示。代价函数(Cost function)是定义在整个训练集上面的，也就是所有样本的误差的总和的平均，也就是损失函数的总和的平均，有没有这个平均其实不会影响最后的参数的求解结果。总体损失函数(Total loss function)是

2021-07-18 20:32:53 93

原创 task3 梯度下降

梯度下降法在回归问题的第三步中，需要解决下面的最优化问题：Tip1：调整学习速率上图左边黑色为损失函数的曲线，假设从左边最高点开始，如果学习率调整的刚刚好，比如红色的线，就能顺利找到最低点。如果学习率调整的太小，比如蓝色的线，就会走的太慢，虽然这种情况给足够多的时间也可以找到最低点，实际情况可能会等不及出结果。如果学习率调整的有点大，比如绿色的线，就会在上面震荡，走不下去，永远无法到达最低点。还有可能非常大，比如黄色的线，直接就飞出去了，更新参数的时候只会发现损失函数越更新越大。虽然这样的

2021-07-16 22:21:43 89

原创 task2 回归

模型步骤step1：模型假设，选择模型框架（线性模型）step2：模型评估，如何判断众多模型的好坏（损失函数）step3：模型优化，如何筛选最优的模型（梯度下降）Step 1：模型假设 - 线性模型一元线性模型（单个特征）多元线性模型（多个特征）Step 2：模型评估 - 损失函数最终定义损失函数 Loss function：Step 3：最佳模型 - 梯度下降如何筛选最优的模型（参数w，b）先从最简单的只有一个参数w...

2021-07-14 21:42:08 82

原创 task6 基于图神经网络的图表征学习方法

在此篇文章中我们将学习基于图神经网络的图表征学习方法，图表征学习要求在输入节点属性、边和边的属性（如果有的话）得到一个向量作为图的表征，基于图表征进一步的我们可以做图的预测。基于图同构网络（Graph Isomorphism Network, GIN）的图表征网络是当前最经典的图表征学习网络，我们将以它为例，通过该网络的实现、项目实践和理论分析，三个层面来学习基于图神经网络的图表征学习方法。基于图同构网络（GIN）的图表征网络的实现基于图同构网络的图表征学习主要包含以下两个过程：首先计算得到节点表征

2021-07-05 21:58:26 120

原创 task5 超大图上的节点表征学习

引言图神经网络已经成功地应用于许多节点或边的预测任务，然而，在超大图上进行图神经网络的训练仍然具有挑战。普通的基于SGD的图神经网络的训练方法，要么面临着随着图神经网络层数增加，计算成本呈指数增长的问题，要么面临着保存整个图的信息和每一层每个节点的表征到内存（显存）而消耗巨大内存（显存）空间的问题。虽然已经有一些论文提出了无需保存整个图的信息和每一层每个节点的表征到GPU内存（显存）的方法，但这些方法可能会损失预测精度或者对提高内存的利用率并不明显。于是论文Cluster-GCN: An Efficien

2021-07-01 21:26:13 109

原创 Task04数据完整存储与内存的数据集类+节点预测与边预测任务实践

InMemoryDataset基类简介在PyG中，我们通过继承InMemoryDataset类来自定义一个数据可全部存储到内存的数据集类class InMemoryDataset(root: Optional[str] = None, transform: Optional[Callable] = None, pre_transform: Optional[Callable] = None, pre_filter: Optional[Callable] = None)nMemoryDataset`类

2021-06-27 22:41:48 204 1

原创 Task3 基于图神经网络的节点表征学习

获取并分析数据集from torch_geometric.datasets import Planetoidfrom torch_geometric.transforms import NormalizeFeaturesdataset = Planetoid(root='data/Planetoid', name='Cora', transform=NormalizeFeatures())print()print(f'Dataset: {dataset}:')print('=========

2021-06-23 21:22:08 253 2

原创消息传递图神经网络

消息传递范式是一种聚合邻接节点信息来更新中心节点信息的范式(1)邻接节点信息变换、(2)邻接节点信息聚合到中心节点、(3)聚合信息变换用xi(k−1)∈RF\mathbf{x}^{(k-1)}_i\in\mathbb{R}^Fxi(k−1)∈RF表示(k−1)(k-1)(k−1)层中节点iii的节点特征，ej,i∈RD\mathbf{e}_{j,i} \in \mathbb{R}^Dej,i∈RD 表示从节点jjj到节点iii的边的特征，消息传递图神经网络可以描述为xi(k)=γ(k)(xi(k

2021-06-19 22:42:11 418

原创 task1：简单图论&PyG中图与图数据集的表示和使用

简介PyTorch Geometric (PyG)是面向几何深度学习的PyTorch的扩展库，几何深度学习指的是应用于图和其他不规则、非结构化数据的深度学习。基于PyG库，我们可以轻松地根据数据生成一个图对象，然后很方便的使用它；我们也可以容易地为一个图数据集构造一个数据集类，然后很方便的将它用于神经网络。Data类——PyG中图的表示及其使用class Data(object): def __init__(self, x=None, edge_index=None, edge_attr=N

2021-06-16 21:33:55 696

原创异常检测--基于统计学的方法

HOBSHBOS全名为：Histogram-based Outlier Score。它是一种单变量方法的组合，不能对特征之间的依赖关系进行建模，但是计算速度较快，对大数据集友好。其基本假设是数据集的每个维度相互独立。然后对每个维度进行区间(bin)划分，区间的密度越高，异常评分越低。HBOS算法流程：1.为每个数据维度做出数据直方图。对分类数据统计每个值的频数并计算相对频率。对数值数据根据分布的不同采用以下两种方法：静态宽度直方图：标准的直方图构建方法，在值范围内使用k个等宽箱。样本落入每个桶的频率

2021-05-14 17:23:50 370

原创异常检测1

基于统计学的方法统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生，而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。即利用统计学方法建立一个模型，然后考虑对象有多大可能符合该模型。z-score异常检测假设样本服从正态分布，用于描述样本偏离正态分布的程度。通过计算????和????得到当前样本所属于的正

2021-05-11 17:59:44 89

原创张子良知识图谱课程笔记

知识图谱的典型应用语义理解智能搜索：基于人的关键词直接匹配其摘要信息返回其摘要改造搜索引擎对外展示信息的方式智能问答：准备知识库，eg:EVI,Siri,头条智能问车辅助决策：IBM沃森系统医疗助手诊断疾病人工智能：感知能力认知能力服务能力知识图谱是人工智能进步的阶梯知识图谱的体系结构：知识获取（爬虫众包）→知识存储→知识表示→知识应用知识架构语义类型设计：节点分类的研究语义关系设计：节点与节点关系的研究语义关系：相关关系（概念相关空间相关时间相关物理相关功能

2021-04-25 17:16:21 582 1

原创 Docker 网络

Docker 基础网络介绍外部访问容器容器中可以运行一些网络应用，要让外部也可以访问这些应用，可以通过-P或-p参数来指定端口映射。当使用-P标记时，Docker会随机映射一个端口到内部容器开放的网络端口。使用docker container ls可以看到，本地主机的 32768 被映射到了容器的 80 端口。此时访问本机的 32768 端口即可访问容器内 NGINX 默认页面通过docker logs命令来查看访问记录映射所有接口地址使用hostPort:containerPort格式

2021-04-19 11:30:11 197

原创 Docker数据管理

简介介绍如何在 Docker 内部以及容器之间管理数据，在容器中管理数据主要有两种方式：数据卷（Volumes）挂载主机目录 (Bind mounts)数据卷数据卷是一个可供一个或多个容器使用的特殊目录，它绕过 UFS，可以提供很多有用的特性：数据卷可以在容器之间共享和重用，对数据卷的修改会立马生效，对数据卷的更新不会影响镜像，数据卷默认会一直存在，即使容器被删除。注意：数据卷的使用，类似于 Linux 下对目录或文件进行 mount，镜像中的被指定为挂载点的目录中的文件会复制到数据卷中（

2021-04-16 11:25:12 112

原创 Docker镜像与容器

获取镜像

2021-04-14 18:27:36 248

原创 Pytorch模型创建

nn.Module初始化后letnet 中有了8个有序字典一个module接受一个张量经过一系列复杂运算以下两个重点：管理模型和可学习参数step into 先进入conv2d 跳出再step into setattr通过module中__setattr__ 函数（功能：拦截所有类属性的赋值，刚刚只是构建conv2d网络层，还没有进行赋值，即将赋值的时候被拦截下来，进入setattr函数）判断是parameters还是module 若是module获取module名，对value进行一个数据

2021-04-02 16:31:55 107

原创 DIN

模型原理Deep Interest Network(DIN)是2018年阿里巴巴提出来的模型。该模型的应用场景是阿里巴巴的电商广告推荐业务，这样的场景下一般会有大量的用户历史行为信息，这个其实是很关键的，因为DIN模型的创新点或者解决的问题就是使用了注意力机制来对用户的兴趣动态模拟，而这个模拟过程存在的前提就是用户之前有大量的历史行为了，这样我们在预测某个商品广告用户是否点击的时候，就可以参考他之前购买过或者查看过的商品，这样就能猜测出用户的大致兴趣来，这样我们的推荐才能做的更加到位，所以这个模型的

2021-03-27 17:34:08 194

qq_39768856的博客