自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 BERT&GPT

BERTBERT:从 Decoder 到 EncoderOpenAI Transformer 为我们提供了一个基于 Transformer 的可以微调的预训练网络。但是在把 LSTM 换成 Transformer 的过程中,有些东西丢失了。ELMo 的语言模型是双向的,但 OpenAI Transformer 只训练了一个前向的语言模型。我们是否可以构建一个基于 Transformer 的语言模型,它既向前看,又向后看(用技术术语来说 - 融合上文和下文的信息)。Masked Language Mod

2021-08-20 18:18:15 1012

原创 Attention和Transformer

Transformer 使用了 Seq2Seq任务中常用的结构——包括两个部分:Encoder 和 Decoder。一般的结构图,都是像下面这样。从整体宏观来理解 Transformer中间部分的 Transformer 可以拆分为 2 部分:左边是编码部分(encoding component),右边是解码部分(decoding component)其中编码部分是多层的编码器(Encoder)组成(Transformer 的论文中使用了 6 层编码器,这里的层数 6 并不是固定的,你也可以根据

2021-08-17 17:48:29 526

原创 task7 总结

2021课程地址:https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html2021spring视频:https://www.bilibili.com/video/BV11K4y1S7AD?p=5

2021-07-25 19:34:02 107

原创 task6 cnn

CNN架构所以整个CNN的架构是这样的,首先input一张image以后,这张image会通过convolution layer,接下里做max pooling这件事,然后在做convolution,再做max pooling这件事。这个process可以反复无数次,反复的次数你觉得够多之后,(但是反复多少次你是要事先决定的,它就是network的架构(就像你的neural有几层一样),你要做几层的convolution,做几层的Max Pooling,你再定neural架构的时候,你要事先决定好)。你

2021-07-24 20:05:23 111

原创 task5网络设计的技巧

when gradient is small梯度是0:local min ,local max, saddle pointHij:矩阵i行j列训练遇到saddle,loss一般还能够下降在二维空间中看是local minima 在更高位的空间中看是saddle point?saddle point,eigen value 有正有负 ;local minima :eigen value都是正的是minima ratio 0.5 意味着至少还有一半的路可以让 loss下降 local mi

2021-07-20 21:55:11 67

原创 task4 反向传播

梯度下降链式法则连锁影响(可以看出x会影响y,y会影响z)BP主要用到了chain rule反向传播损失函数(Loss function)是定义在单个训练样本上的,也就是就算一个样本的误差,比如我们想要分类,就是预测的类别和实际类别的区别,是一个样本的,用L表示。代价函数(Cost function)是定义在整个训练集上面的,也就是所有样本的误差的总和的平均,也就是损失函数的总和的平均,有没有这个平均其实不会影响最后的参数的求解结果。总体损失函数(Total loss function)是

2021-07-18 20:32:53 61

原创 task3 梯度下降

梯度下降法在回归问题的第三步中,需要解决下面的最优化问题:Tip1:调整学习速率上图左边黑色为损失函数的曲线,假设从左边最高点开始,如果学习率调整的刚刚好,比如红色的线,就能顺利找到最低点。如果学习率调整的太小,比如蓝色的线,就会走的太慢,虽然这种情况给足够多的时间也可以找到最低点,实际情况可能会等不及出结果。如果 学习率调整的有点大,比如绿色的线,就会在上面震荡,走不下去,永远无法到达最低点。还有可能非常大,比如黄色的线,直接就飞出去了,更新参数的时候只会发现损失函数越更新越大。虽然这样的

2021-07-16 22:21:43 62

原创 task2 回归

模型步骤step1:模型假设,选择模型框架(线性模型)step2:模型评估,如何判断众多模型的好坏(损失函数)step3:模型优化,如何筛选最优的模型(梯度下降)Step 1:模型假设 - 线性模型一元线性模型(单个特征)多元线性模型(多个特征)Step 2:模型评估 - 损失函数最终定义 损失函数 Loss function:Step 3:最佳模型 - 梯度下降如何筛选最优的模型(参数w,b)先从最简单的只有一个参数w...

2021-07-14 21:42:08 60

原创 task6 基于图神经网络的图表征学习方法

在此篇文章中我们将学习基于图神经网络的图表征学习方法,图表征学习要求在输入节点属性、边和边的属性(如果有的话)得到一个向量作为图的表征,基于图表征进一步的我们可以做图的预测。基于图同构网络(Graph Isomorphism Network, GIN)的图表征网络是当前最经典的图表征学习网络,我们将以它为例,通过该网络的实现、项目实践和理论分析,三个层面来学习基于图神经网络的图表征学习方法。基于图同构网络(GIN)的图表征网络的实现基于图同构网络的图表征学习主要包含以下两个过程:首先计算得到节点表征

2021-07-05 21:58:26 95

原创 task5 超大图上的节点表征学习

引言图神经网络已经成功地应用于许多节点或边的预测任务,然而,在超大图上进行图神经网络的训练仍然具有挑战。普通的基于SGD的图神经网络的训练方法,要么面临着随着图神经网络层数增加,计算成本呈指数增长的问题,要么面临着保存整个图的信息和每一层每个节点的表征到内存(显存)而消耗巨大内存(显存)空间的问题。虽然已经有一些论文提出了无需保存整个图的信息和每一层每个节点的表征到GPU内存(显存)的方法,但这些方法可能会损失预测精度或者对提高内存的利用率并不明显。于是论文Cluster-GCN: An Efficien

2021-07-01 21:26:13 81

原创 Task04数据完整存储与内存的数据集类+节点预测与边预测任务实践

InMemoryDataset基类简介在PyG中,我们通过继承InMemoryDataset类来自定义一个数据可全部存储到内存的数据集类class InMemoryDataset(root: Optional[str] = None, transform: Optional[Callable] = None, pre_transform: Optional[Callable] = None, pre_filter: Optional[Callable] = None)nMemoryDataset`类

2021-06-27 22:41:48 175 1

原创 Task3 基于图神经网络的节点表征学习

获取并分析数据集from torch_geometric.datasets import Planetoidfrom torch_geometric.transforms import NormalizeFeaturesdataset = Planetoid(root='data/Planetoid', name='Cora', transform=NormalizeFeatures())print()print(f'Dataset: {dataset}:')print('=========

2021-06-23 21:22:08 195 2

原创 消息传递图神经网络

消息传递范式是一种聚合邻接节点信息来更新中心节点信息的范式(1)邻接节点信息变换、(2)邻接节点信息聚合到中心节点、(3)聚合信息变换用xi(k−1)∈RF\mathbf{x}^{(k-1)}_i\in\mathbb{R}^Fxi(k−1)​∈RF表示(k−1)(k-1)(k−1)层中节点iii的节点特征,ej,i∈RD\mathbf{e}_{j,i} \in \mathbb{R}^Dej,i​∈RD 表示从节点jjj到节点iii的边的特征,消息传递图神经网络可以描述为xi(k)=γ(k)(xi(k

2021-06-19 22:42:11 349

原创 task1:简单图论&PyG中图与图数据集的表示和使用

简介PyTorch Geometric (PyG)是面向几何深度学习的PyTorch的扩展库,几何深度学习指的是应用于图和其他不规则、非结构化数据的深度学习。基于PyG库,我们可以轻松地根据数据生成一个图对象,然后很方便的使用它;我们也可以容易地为一个图数据集构造一个数据集类,然后很方便的将它用于神经网络。Data类——PyG中图的表示及其使用class Data(object): def __init__(self, x=None, edge_index=None, edge_attr=N

2021-06-16 21:33:55 622

原创 异常检测--基于统计学的方法

HOBSHBOS全名为:Histogram-based Outlier Score。它是一种单变量方法的组合,不能对特征之间的依赖关系进行建模,但是计算速度较快,对大数据集友好。其基本假设是数据集的每个维度相互独立。然后对每个维度进行区间(bin)划分,区间的密度越高,异常评分越低。HBOS算法流程:1.为每个数据维度做出数据直方图。对分类数据统计每个值的频数并计算相对频率。对数值数据根据分布的不同采用以下两种方法:静态宽度直方图:标准的直方图构建方法,在值范围内使用k个等宽箱。样本落入每个桶的频率

2021-05-14 17:23:50 298

原创 异常检测1

基于统计学的方法统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。z-score异常检测假设样本服从正态分布,用于描述样本偏离正态分布的程度。通过计算????和????得到当前样本所属于的正

2021-05-11 17:59:44 60

原创 张子良知识图谱课程笔记

知识图谱的典型应用语义理解智能搜索:基于人的关键词直接匹配其摘要信息 返回其摘要 改造搜索引擎对外展示信息的方式智能问答:准备知识库,eg:EVI,Siri,头条智能问车辅助决策:IBM沃森系统 医疗助手 诊断疾病人工智能:感知能力 认知能力 服务能力知识图谱是人工智能进步的阶梯知识图谱的体系结构:知识获取(爬虫众包)→知识存储→知识表示→知识应用知识架构语义类型设计:节点分类的研究语义关系设计: 节点与节点关系的研究语义关系:相关关系(概念相关 空间相关 时间相关 物理相关 功能

2021-04-25 17:16:21 518 1

原创 Docker 网络

Docker 基础网络介绍外部访问容器容器中可以运行一些网络应用,要让外部也可以访问这些应用,可以通过-P或-p参数来指定端口映射。当使用-P标记时,Docker会随机映射一个端口到内部容器开放的网络端口。 使用docker container ls可以看到,本地主机的 32768 被映射到了容器的 80 端口。此时访问本机的 32768 端口即可访问容器内 NGINX 默认页面通过docker logs命令来查看访问记录映射所有接口地址使用hostPort:containerPort格式

2021-04-19 11:30:11 157

原创 Docker数据管理

简介介绍如何在 Docker 内部以及容器之间管理数据,在容器中管理数据主要有两种方式:数据卷(Volumes)挂载主机目录 (Bind mounts)数据卷数据卷是一个可供一个或多个容器使用的特殊目录,它绕过 UFS,可以提供很多有用的特性:数据卷可以在容器之间共享和重用,对数据卷的修改会立马生效,对数据卷的更新不会影响镜像,数据卷默认会一直存在,即使容器被删除。注意:数据卷 的使用,类似于 Linux 下对目录或文件进行 mount,镜像中的被指定为挂载点的目录中的文件会复制到数据卷中(

2021-04-16 11:25:12 58

原创 Docker镜像与容器

获取镜像

2021-04-14 18:27:36 205

原创 Pytorch模型创建

nn.Module初始化后letnet 中有了8个有序字典一个module接受一个张量经过一系列复杂运算以下两个重点:管理模型和可学习参数step into 先进入conv2d 跳出 再step into setattr通过module中__setattr__ 函数(功能:拦截所有类属性的赋值,刚刚只是构建conv2d网络层,还没有进行赋值,即将赋值的时候被拦截下来,进入setattr函数)判断是parameters还是module 若是module获取module名,对value进行一个数据

2021-04-02 16:31:55 80

原创 DIN

模型原理Deep Interest Network(DIN)是2018年阿里巴巴提出来的模型。该模型的应用场景是阿里巴巴的电商广告推荐业务, 这样的场景下一般会有大量的用户历史行为信息, 这个其实是很关键的,因为DIN模型的创新点或者解决的问题就是使用了注意力机制来对用户的兴趣动态模拟, 而这个模拟过程存在的前提就是用户之前有大量的历史行为了,这样我们在预测某个商品广告用户是否点击的时候,就可以参考他之前购买过或者查看过的商品,这样就能猜测出用户的大致兴趣来,这样我们的推荐才能做的更加到位,所以这个模型的

2021-03-27 17:34:08 154

原创 NFM

背景FNN模型是2016年提出的一个FM和DNN的一个组合, 这个模型的底层是FM,上层是DNN,该模型提出的目的依然是特征之间的交叉和表达能力的增强, 作者在论文中说FM虽然考虑了二阶交叉,但是无法延伸到高阶交叉信息的学习,于是乎提出了底层FM二阶交叉学习之后,再接一个DNN的组合,当然,还提出了一些有效的预训练方式。 但是该模型会存在一些问题,于是在2017年DeepFM出现了,该模型依然是FM和DNN的组合,但不是串行,而是基于W&D的架构,换成了并行的方式,让FM充当于W部分(当然不只是单

2021-03-23 17:34:17 180 1

原创 DeepFM

deepfm解决的问题FNN缺点如下:FNN底层通过为FM预训练得到向量,预训练有两个缺点:(1)FNN embedding矩阵的参数会受到预训练结果的影响(2)预训练的引入使得模型的效率降低FNN只能学到高阶特征组合,学习不到低阶特征PNN无法学些到低阶特征(可以理解为输入直接过了若干层网络,只学习到了高阶组合)deep&wideLR部分需要进行手动的特征的组合(原论文说LR部分输入的是原始的特征和二阶特征组合)deep和wide部分分别对特征做了不同的embeddin

2021-03-21 17:25:59 143

原创 wide&deep模型笔记

wide&deep模型线性模型无法学习到训练集中未出现的组合特征;FM或DNN通过学习embedding vector虽然可以学习到训练集中未出现的组合特征,但是会过度泛化。Wide PartWide Part其实是一个广义的线性模型使用特征包括:raw input 原始特征cross-product transformation 组合特征接下来我们用同一个例子来说明:你给model一个query(你想吃的美食),model返回给你一个美食,然后你购买/消费了这个推荐。 也就是说,推

2021-03-18 11:44:28 223

原创 pycharm创建虚拟环境

conda create -n transformers_v4 python=3.7conda active transformers_v4

2021-02-20 23:13:26 118

原创 DCIC早高峰共享单车潮汐点的群智优化task1

DCIC早高峰共享单车潮汐点的群智优化task1baseline geohash包安装 install python-geohash

2021-02-19 18:36:00 117

转载 知识图谱

主体类 MedicalGraph 介绍class MedicalGraph: def __init__(self): pass # 读取文件,获得实体,实体关系 def read_file(self): psss # 创建节点 def create_node(self, label, nodes): pass # 创建疾病节点的属性 def create_diseases_nodes(self

2021-01-13 23:09:56 100

原创 知识图谱

DataWhale知识图谱 task2基于医疗知识图谱的问答系统操作介绍https://github.com/zhihao-chen/QASystemOnMedicalGraph注意修改代码中数据库密码

2021-01-12 18:02:36 63

原创 知识图谱

neo4j安装## 标题

2021-01-11 22:43:02 63

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除