自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 超大规模数据集类的构建

超大规模数据集类的创建题数据集的构建本文为学习笔记,完整教程见DataWhale.数据集的构建PCQM4M-LSC是一个分子图的量子特性回归数据集,它包含了3,803,453个图。import osimport os.path as ospimport pandas as pdimport torchfrom ogb.utils import smiles2graphfrom ogb.utils.torch_util import replace_numpy_with_torchtens

2021-07-10 00:20:55 746

原创 GNN学习总结

总结本文记录自己的主要收获GCN代码import torch.nn.functional as Ffrom sklearn.metrics import roc_auc_scoreclass Net(torch.nn.Module): def __init__(self): super(Net, self).__init__() self.conv1 = GCNConv(165, 128) self.conv2 = GCNC

2021-07-09 21:57:26 253

原创 超大图上的节点表征学习

超大图上的节点表征学习本文为学习笔记,完整链接教程见DataWhale注:此节文章翻译并整理自提出Cluster-GCN的论文:Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Network引言图神经网络已经成功地应用于许多图节点或边的预测任务中,然而,在超大图上进行图神经网络的训练仍然具有挑战性。普通的基于SGD的图神经网络的训练方法,要么面临着随着图神经网络层数增加计算成本呈指

2021-07-01 23:05:13 206 1

原创 数据完整存储与内存的数据集类+节点预测与边预测任务实践

数据完全存于内存的数据集类本文为学习记录,完整笔记见DataWhaleInMemoryDataset基类简介class InMemoryDataset(root: Optional[str] = None, transform: Optional[Callable] = None, pre_transform: Optional[Callable] = None, pre_filter: Optional[Callable] = None)import torchfrom torch_geome

2021-06-27 22:48:11 276 2

原创 基于图神经网络的节点表征学习

基于图神经网络的节点表征学习此文为学习笔记,完整开源内容见DataWhale引言基于图神经网络的节点表征学习可以理解为对图神经网络进行基于监督学习的训练,使得图神经网络学会产生高质量的节点表征。本节中主要学习实现多层图神经网络的方法,以及训练图神经网络产生高质量节点表征并实现高准确性节点分类的一般过程。在节点预测任务中,一个图上有很多节点,部分节点的标签已知,剩余节点的标签未知。将节点的属性(x)、边的端点信息(edge_index)、边的属性(edge_attr,如果有的话)输入到多层图神经网络

2021-06-23 23:31:31 844

原创 消息传递图神经网络

消息传递图神经网络本文为学习笔记,完整开源笔记见DataWhale一、引言为节点生成节点表征(Node Representation)是图计算任务成功的关键,我们要利用神经网络来学习节点表征。消息传递范式是一种聚合邻接节点信息来更新中心节点信息的范式,它将卷积算子推广到了不规则数据领域,实现了图与神经网络的连接。消息传递范式因为简单、强大的特性,于是被人们广泛地使用。遵循消息传递范式的图神经网络被称为消息传递图神经网络。本节中,首先学习图神经网络生成节点表征的范式–消息传递(Message Pas

2021-06-19 23:49:45 222

原创 简单图论与PyG库

简单图论与PyG库图结构数据上的机器学习应用神经网络于图面临的挑战环境配置与PyG中图与图数据集的表示和使用一、引言二、环境配置三、`Data`类——PyG中图的表示及其使用`Data`对象的创建通过构造函数转`dict`对象为`Data`对象`Data`对象转换成其他类型数据获取`Data`对象属性设置`Data`对象属性获取`Data`对象包含的属性的关键字对边排序并移除重复的边`Data`对象的其他性质四、`Dataset`类——PyG中图数据集的表示及其使用生成数据集对象并分析数据集分析数据集中样本

2021-06-16 23:47:05 1373 3

原创 高维数据异常检测

高维数据异常检测引言Feature BaggingIsolation Forests总结引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的⼤小(体积)会以指数级别增 ⻓,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不⽌给异常检测带来了挑战,对距离的计算, 聚类都带来了难题。例如基于邻近度的⽅法是在所有维度使⽤距离函数来定义局部性,但是,在⾼维空间中,所有点对的距离⼏乎都是相等的(距离集中),这使得⼀些基于距离的⽅法失效。在⾼维场景 下,⼀个常⽤的⽅法是⼦空间⽅法。集成是⼦空间思想中

2021-01-24 23:00:16 291

原创 异常检测——基于相似度的方法

基于相似度的方法概述基于距离的度量基于单元的方法基于索引的方法基于密度的度量k-距离(k-distance(p))剩下的继续补充~概述“异常”通常是⼀个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。实际上,数据通常嵌⼊在⼤量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那⼀类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更⾼的离群程度分数值,同时也更具有可解释性。在普

2021-01-22 00:25:31 273

原创 异常检测——线性相关方法

异常检测——线性相关方法引言数据可视化线性回归基于自变量与因变量的线性回归最小二乘法梯度下降法基于异常检测的线性回归主成分分析原理推导归一化问题回归分析的局限性总结学习笔记~引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会

2021-01-19 20:32:23 517

原创 Task 4 用户输入->知识库的查询语句

Task 4 用户输入->知识库的查询语句引言什么是问答系统问答系统简介Query理解Query理解介绍意图识别槽值填充主题类EntityExtractor框架介绍命名实体识别任务实践意图识别任务实践先整理一部分,剩下的后面补充~引言本部分任务主要是将用户输入问答系统的自然语言转化成知识库的查询语句,因此本文将分成两部分进行介绍。一部分介绍任务所涉及的背景知识;第二部分则是相应的代码和其注释什么是问答系统问答系统简介问答系统(Question Answering System,QA

2021-01-15 22:19:16 106

原创 异常检测二:基于统计学的方法

异常检测二:基于统计学的方法概述参数方法基于正态分布的一元异常点检测多元异常点检测多个特征相关,且符合多元高斯分布使用混合参数分布非参数方法HBOS总结本文为学习笔记~概述统计学⽅法对数据的正常性做出假定。**它们假定正常的数据对象由⼀个统计模型产⽣,而不遵守该模型 的数据是异常点。**统计学⽅法的有效性⾼度依赖于对给定数据所做的统计模型假定是否成⽴。异常检测的统计学⽅法的⼀般思想是:学习⼀个拟合给定数据集的⽣成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利⽤统计学⽅法建⽴⼀个模型

2021-01-15 22:07:27 516

原创 Task 3 Neo4j图数据库导入数据

Task 3 Neo4j图数据库导入数据引言Neo4j简介基本概念索引Neo4j的优势环境部署运行环境neo4j安装及使用Neo4j数据导入数据集简介数据导入neo4j账号密码设置导入数据知识图谱展示主题类MedicalGraph介绍主题类MedicalGraph中关键代码讲解总结引言在计算机科学中,图形作为一种特定的数据结构,用于表达数据之间的复杂关系,如社交关系、组织架构、交通信息、网络拓扑等等。在图计算中,基本的数据结构表达式是:G=(V,E),V=vertex(节点),E=edge(边)。图形结

2021-01-13 20:36:39 255 1

原创 知识图谱之基于医疗知识图谱的问答系统

目录引言该项目主要分为两部分:第一部分:搭建知识图谱。第二部分:启动问答测试。构建一个简单的基于 知识图谱 的对话系统。核心目标是从全局对项目的运行过程进行介绍和讲解;能够跑通整个项目。运行环境python3.0及以上neo4j 3.5.0及以上jdk 1.8.0构建知识图谱运行以下命令:python build_graph.py启动问答测试运行以下命令:python kbqa_test.py代码目录介绍data:存放数据img:存放read

2021-01-12 22:56:19 1909 1

原创 异常检测介绍

异常检测介绍概述什么是异常检测异常检测的类别异常检测任务分类异常检测场景异常检测常用方法传统方法基于统计学的方法线性模型基于相似度的方法集成方法机器学习异常检测常用开源库本文为Datawhale学习笔记~概述什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期⾏为差异⼤的数 据。识别如信⽤卡欺诈,⼯业⽣产异常,⽹络流⾥的异常(⽹络侵⼊)等问题,针对的是少数的事件。异常检测的类别点异常:指的是少数个体实例是异常的,⼤多数个体实例是正常的,例如

2021-01-12 22:45:43 427

原创 Task 1 知识图谱介绍

知识图谱介绍知识图谱简介1.1 引言1.2 什么是知识图谱呢?1.2.1 什么是图(Graph)呢?1.2.2 什么是Schema呢?知识图谱的价值在哪呢?本文是参与Datawhale开源学习时的笔记,记录下来以供自己更好的消化理解~知识图谱简介你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。1.1 引言从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、

2021-01-11 23:38:54 326

原创 北大信科机试练习之基础字符串

北大信科机试练习之基础字符串试题集 1.7 基础编程之字符串(30-27)30 字符环29 ISBN编码28 单词倒排27 单词倒排试题集 1.7 基础编程之字符串(30-27)30 字符环描述有两个由字符构成的环。请写一个程序,计算这两个字符环上最长连续公共字符串的长度。例如,字符串“ABCEFAGADEGKABUVKLM”的首尾连在一起,构成一个环;字符串“MADJKLUVKL”的首尾...

2019-06-09 15:41:50 848

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除