自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 PLY文件简介

PLY多边形文件格式的开发目标是建立一套针对多边形模型的,结构简单可是可以满足大多数图形应用须要的模型格式,并且它同意以ASCII码格式或二进制形式存储文件。PLY的开发人员希望。然而因为各种各样的原因,在工业领域内,新的文件格式仍然在不断的出现,可是在图形学的研究领域中,PLY还是种经常使用且关键的文件格式。北卡(UNC)的电厂模型等,最初的模型都是基于这个格式的。PLY实在是种简单的不能再简单的文件格式,可是假设细致研究就会发现,就像设计者所说的,这对于绝大多数的图形应用来说已经是足够用了。

2023-08-13 17:40:57 225 1

原创 自然语言处理 2023/7/27

关系抽取从流程上,可以分为流水线式抽取(Pipline)和联合抽取(Joint Extraction)两种,流水线式抽取就是把关系抽取的任务分为两个步骤:首先做实体识别,再抽取出两个实体的关系;优点是抽取的三元组查准率(Precision)高,尤其适合做特定领域的关系抽取;缺点是查全率(Recall)很低,也就是说查得准,但是查不全,而且针对每一种关系都需要手写大量的规则,比较惨。监督学习的优点是,如果标注好的训练语料足够大,那么分类器的效果是比较好的,可问题是标注的成本太大了。

2023-07-28 08:06:27 68 1

原创 DocRED: A Large-Scale Document-Level Relation Extraction Dataset

Abstract文档中的多个实体通常表现出复杂的句子间关系,现有的关系提取方法通常侧重于提取单个实体对的句子内关系,无法很好地处理这些关系。为了加速文档级RE的研究,我们引入了一个基于维基百科和维基数据构建的新数据集DocRED,它具有以下三个特征:(1)DocRED对命名实体和关系都进行了标注,是目前最大的纯文本文档级RE人工标注数据集;(2) DocRED要求阅读文档中的多个句子,通过综合文档的所有信息提取实体并推断它们之间的关系;(3)除了人工标注的数据外,我们还提供了大规模的远程监督数据,这使得

2023-07-23 19:44:55 299

原创 GPU版本pytorch的安装

本文仅提供python+CUDA+pytorch的安装,不包含Anaconda的安装。

2023-07-20 23:55:31 156 1

原创 学习文档级逻辑规则基础知识

预训练模型:在一个原始任务上预先训练一个初始模型,然后在目标任务上使用该模型,针对目标任务的特性,对该初始模型进行精调,从而达到提高目标任务的目的。在本质上,这是一种迁移学习的方法,在自己的目标任务上使用别人训练好的模型。第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大。第二步是最大化(M),最大化在 E 步上求得的最大似然值来。E步骤:估计未知参数的期望值,给出当前的参数估计。M步骤:重新估计分布参数,以使得数据的。性最大,给出未知变量的期望估计。或者最大后验估计的算法,其中。

2023-07-19 22:05:24 26

原创 Learning Logic Rules for Document-Level Relation Extraction

文档级关系提取旨在识别整个文档中实体之间的关系。先前捕获远程依赖关系的努力严重依赖于通过(图)神经网络学习的隐式强大表示,这使得模型不太透明。为了解决这一挑战,本文提出了LogiRE,这是一种通过学习逻辑规则来提取文档级关系的新型概率模型。LogiRE将逻辑规则视为潜在变量,由两个模块组成:规则生成器和关系提取器。规则生成器生成可能有助于最终预测的逻辑规则,关系提取器根据生成的逻辑规则输出最终预测。利用期望最大化(EM)算法可以对这两个模块进行有效的优化。

2023-07-17 10:53:22 202 1

原创 NLP问题

过度依赖数据,依赖超大规模模型训练(与人类学习方式不符)

2023-07-16 10:23:51 34 1

原创 机器学习入门

2023-07-16 10:06:16 50 1

原创 EM算法简介

EM的意思是“Expectation Maximization”,具体方法为:

2023-07-15 09:51:14 47 1

原创 CNN(卷积神经网络)基础知识-池化

池化过程一般在卷积过程之后,池化的本质其实就是对输入的特征图进行采样,以某种方式进行降维压缩,来加快运算速度。总之池化就是在信息完整度和计算速度之间的协调。池化的种类分为最大池化和平均池化。

2023-07-14 22:49:56 95 1

原创 文档级关系抽取

与传统的基于单句的关系抽取数据集相比,不同之处在于,DocRED中超过40%的关系事实只能从多个句子中联合抽取,因此需要模型具备较强的获取和综合文章中信息的能力,尤其是抽取跨句关系的能力。图卷积神经网络是一个很好地在图结构上进行特征抽取的神经网络模型,在图网络上进行卷积,简单的说就是是用=邻接节点的特征,更新节点自己的向量表达,达到特征传递的目的。文档中的多个实体之间,往往存在复杂的相互关系。在使用图神经网络时,图的构造是关键的一个环节,根据是否需要区分图中边的类型,可以将图分为异质图和同质图。

2023-07-14 11:11:56 311 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除