- 博客(194)
- 资源 (13)
- 收藏
- 关注
原创 命名实体识别Baseline模型BERT-MRC总结
BERT-MRC模型BERT-MRC模型是目前实体识别领域的一个SOTA模型,在数据量较小的情况下效果较其他模型要更好,原因是因为BERT-MRC模型可以通过问题加入一些先验知识,减小由于数据量太小带来的问题,在实际实验中,在数据量比较小的情况下,BERT-MRC模型的效果确实要较其他模型要更好一点。BERT-MRC模型很适合在缺乏标注数据的场景下使用。BERT-MRC模型的理论基础MRC机器阅读理解给定一个文本序列X,它的长度为n,要抽取出其中的每个实体,其中实体都属于一种实体类型。假设该数据集
2020-11-11 15:51:22 15271 23
原创 文档级关系抽取方法总结
文章目录文档级关系抽取将关系抽取由句子级扩展到文档级的原因文档级关系抽取数据集DocRED图神经网络图网络结构的分类GCNGP-GNNGraphRelGCNNEoGLSRDyGIE/DyGIE++文档级关系抽取将关系抽取由句子级扩展到文档级的原因目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系,在实践中受到不可避免的限制:在真实场景中,大量的关系事实是以多个句子表达的。文档中的多个实体之间,往往存在复杂的相互关系。以下图为例,就包括了文章中的两个关系事实(这是从文档标注的19个关系事实中采
2020-07-20 09:28:06 7638 5
原创 实体关系抽取任务方法及SOTA模型总结
1 实体关系抽取方法思路实体关系抽取是从文本中的句子里抽取出一对实体并给出实体间关系的任务。该任务的输入是一句话,输出是一个spo三元组(subject-predicate-object)。对于实体关系抽取任务,最容易想到的方法就是先抽取句子中的实体,然后在对实体对进行关系分类,从而找出spo三元组,这种思想被称作管道模型(Pipeline)。管道模型把实体关系抽取分成了两个子任务,实体识别和关系分类,两个子任务按照顺序依次执行,它们之间没有交互。在管道模型之后,可以同时进行实体识别和关系分类的联合模型
2020-05-31 21:02:08 22121 6
原创 Spark大数据计算框架知识总结
文章目录Spark简介Spark架构Spark简介Spark是专为大规模数据处理而设计的计算引擎。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是,Spark计算过程中的中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的算法。Spark是对 Hadoop 的补充,它可以通过名为 Mesos...
2020-11-14 13:52:49 2408
原创 EMNLP2020文档级关系抽取模型GLRE 论文Global-to-Local Neural Networks for Document-Level Relation Extraction
文章目录前言1.摘要2.模型2.1编码层2.2全局表示层2.3局部表示层2.4分类层前言这是EMNLP2020一篇文档级关系抽取的论文,代码链接 https://github.com/nju-websoft/GLRE,这篇论文主要有三个亮点:构建了异质图并使用了R-GCN进行特征传播,相较之前一些构建同质图然后做特征传播的模型,使用异质图可以融合更复杂的特征;有一个本地表示层,通过自注意力的计算方式得到一个local entity representation,消融实验证明了这种方式可以提升关系推
2020-11-14 11:42:56 1535
原创 EMNLP2020文档级关系抽取模型GAIN 论文Double Graph Based Reasoning for Document-level Relation Extraction
前言这是EMNLP2020一篇文档级关系抽取的论文,代码链接 https://github.com/DreamInvoker/GAIN,其性能相较ACL2020中的文档级关系抽取模型LSR有一定的提升,其能够有提升的主要原因在于两点:1)构建了异质图并使用了R-GCN进行特征传播,相较之前一些构建同质图然后做特征传播的模型,使用异质图可以融合更复杂的特征;2)增加了关系推理层,构建了一个实体图做关系推理。1.摘要文档级关系抽取的目的是提取文档中实体之间的关系。不同于句子层次的关系抽取,文档需要对文档中
2020-11-13 21:39:13 1938 11
原创 CCKS2020基于本体的金融知识图谱自动化构建技术评测第五名方法总结
评测任务介绍评测地址CCKS 2020: 基于本体的金融知识图谱自动化构建技术评测链接:https://www.biendata.xyz/competition/ccks_2020_5/评测任务金融研报是各类金融研究结构对宏观经济、金融、行业、产业链以及公司的研究报告。报告通常是有专业人员撰写,对宏观、行业和公司的数据信息搜集全面、研究深入,质量高,内容可靠。报告内容往往包含产业、经济、金融、政策、社会等多领域的数据与知识,是构建行业知识图谱非常关键的数据来源。另一方面,由于研报本身所容纳的数据
2020-11-10 15:51:11 2958 6
原创 图神经网络总结(GCN/GAT/GraphSAGE/DeepWalk/TransE)
文章目录图神经网络1 游走类模型1.1 DeepWalk随机游走DeepWalk计算节点向量的方式:1.2 Node2VECnode2vec改进后的随机游走方式:1.3 LINE2 消息传递类模型2.1 GCN2.2 GAT2.3 GraphSageGraphSAGE 的采样方法:GraphSAGE 的聚合函数:Mean aggregatorLSTM aggregatorPooling aggregator2.4 HAT元路径(meta-path)meta-path的数学定义:基于meta-path的邻居N
2020-09-24 14:30:54 13328 3
原创 NLP中的预训练方法总结 word2vec、ELMO、GPT、BERT、XLNET
文章目录一.文本的表示方法基于one-hot的词向量二.基于词向量的固定表征方法(词向量模型)2.1 N-gram模型2.2 NNLM2.3 word2vecCBoWSkip-gram层次Softmax负采样三.基于词向量的动态表征方法(预训练语言模型)3.1 什么是预训练语言模型3.2 预训练语言模型的优点3.3 预训练语言模型的分类自回归语言模型自编码语言模型排列语言模型3.4 几种重要的预训练模型介绍1. ELMO2. GPT3. BERTTask 1: MLMTask 2: NSPBERT的缺点4.
2020-08-04 01:42:21 2879
原创 NER中的词汇增强方法(LatticeLSTM、CGN、FLAT、Simple-Lexicon)
文章目录NER中的词汇增强方法Dynamic ArchitectureLatticeLSTMMGLatticeLSTMLR-CNNCGNFLATAdaptive EmbeddingSimple-LexiconNER中的词汇增强方法虽然基于字符的NER系统通常好于基于词汇(经过分词)的方法,但基于字符的NER没有利用词汇信息,而词汇边界对于实体边界通常起着至关重要的作用。如何在基于字符的NER系统中引入词汇信息,是近年来NER的一个研究重点。这种在NER任务中引入词汇的方法又被称为词汇增强。从另一个角度
2020-08-03 14:06:12 7424 2
原创 Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction
Introduction大多数现有的事件提取(EE)方法仅提取句子范围内的事件参数。但是,此类句子级的EE方法难以处理来自新兴应用领域(例如金融,法律,健康等)的大量文档,其中事件论元分散在不同的句子中,甚至多个事件实例在同一文档中同时存在。为了应对这些挑战,本文提出了一种新颖的端到端解决方案 Doc2EDAG,该解决方案可以有效地生成基于实体的有向无环图,以实现文档级事件抽取。下面是论文中举出的一个文档例子,左边是一个事件表,右边是该事件表所在的文档。这篇文档有两个股权质押事件记录,其参数分散在多个句
2020-07-11 16:42:22 1770 1
原创 DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Tra
Abstract针对事件抽取(Event Extraction)目前面临着训练数据缺乏和文档级别事件抽取两大问题,文章开创性的提出相应的解决方案。第一,训练数据缺乏。ACE 2005 中,各语言的文档数不过几百篇,对深度学习来说,这样的数据量是不足够的。第二,事件抽取还局限于单个句子。而事实上,一个事件往往涉及到触发词和多种事件元素,触发词和所有的事件元素都出现在同一个句子中的理想情况并不常见,因此篇章级的事件提取非常有必要。下图是论文中给出的一个例子,图中的事件Introduction金融事件对
2020-07-11 16:08:33 1186
原创 机器阅读理解(MRC)和问答(QA)在信息抽取中的应用
一 机器阅读理解(MRC)、问答系统(QA)与信息抽取最近实体关系抽取任务和命名实体识别任务的SOTA模型排行榜中,有很多模型使用到了机器阅读理解(MRC)和问答系统(QA)中思想和方法,如HBT、ETL-span、Multi-turn QA和BERT_MRC等,MRC和QA中的思想和方法的使用,让这些模型相比于传统方法有很大提升。在实体关系抽取任务中,最新的一些模型,如HBT和ETL-span,用到了MRC中经常使用的指针网络方法,通过多层标注序列解决实体重叠问题;Multi-turn QA则使用了问
2020-06-26 09:44:40 6520 4
原创 使用序列标注方法进行关系抽取的相关论文推荐
文章目录序列标注方法与实体重叠问题联合模型与序列标注方法实体重叠问题Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme基于DGCNN和概率图的轻量级信息抽取模型A Novel Hierarchical Binary Tagging Framework for Joint Extraction of E...
2020-04-17 16:47:24 2374 2
原创 关系抽取综述及相关顶会论文介绍
文章目录实体关系抽取简介关系抽取任务关系抽取使用的主要方法基于深度学习的有监督方法流水线模型(1)基于RNN的流水线模型(2)基于CNN的流水线模型(3)基于LSTM的流水线模型联合模型共享参数的联合模型基于序列标注的联合模型基于深度学习的远程监督方法实体关系抽取简介实体关系抽取作为文本挖掘和信息抽取的核心任务,其主要通过对文本信息建模,自动抽取出实体对之间的语义关系,提取出有效的语义知识。其...
2020-04-12 23:22:29 4488
原创 论文Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge阅读笔记
本文为ACL19收录文章摘要目前中文关系提取的模式,是使用具有基于字符或基于单词的输入的神经网络进行的,并且大多数现有方法通常会遭受分段错误和多义性的歧义。我们提出了一种用于中文关系提取的多粒度格框架(MG格),以利用多粒度语言信息和外部语言知识的优势。(1)我们将词级信息合并到字符序列输入中,从而避免了分段错误。(2)我们还借助外部语言知识对多义词的多种意义进行建模,以减轻多义的歧义...
2020-02-23 11:44:09 2185 6
原创 AAAI论文Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence阅读笔记
部分内容翻译摘要联合实体和关系提取是使用单个模型同时检测出实体和关系。本文提出了一种新颖的统一联合提取模型,该模型根据查询词位置p直接标记实体和关系标签,即在p处检测实体, 为此,我们首先设计了一种标记方案,为一个n词句子生成n个标记序列,然后引入位置注意机制为每个词产生不同的句子表示形式。 查询位置以对这n个标记序列进行建模。这样,我们的方法可以同时提取所有实体及其类型以及所有重叠关系。引...
2020-02-22 11:21:49 2930 2
原创 消息队列kafka知识总结
文章目录Kafka简介Kafka是什么消息队列消息队列的两种工作模式点对点模式发布/订阅模式Kafka架构Kafka消息存储机制Kafka分区策略Kafka数据可靠性保证Kafka向producer发送ack确认的时机ISR(in-sync replica set )ack应答机制Kafka中的故障处理follower发生故障:leader发生故障:Kafka简介Kafka是什么Kafka是...
2020-02-03 18:38:33 2161 1
原创 深入理解Java中间件Zookeeper
文章目录Zookeeper简介Zookeeper的设计思想Zookeeper的特点Zookeeper中的数据结构Zookeeper的应用场景统一命名服务统一配置管理统一集群管理服务器节点动态上下线软负载均衡Zookeeper简介ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务框架,是Google的Chubby一个开源的实现、Hadoop和Hbase的重要组件。ZooKeepe...
2020-01-26 15:43:00 1314
原创 Hadoop组件之Yarn
文章目录Yarn简介Yarn架构Yarn工作流程分析Yarn简介Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn架构Yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成,下图是Yarn的架...
2020-01-25 18:28:05 1010
原创 MapReduce计算框架知识总结(一)
文章目录一.MapReduce简介1.1 MapReduce的三类进程二.MapReduce特点2.1 高容错性2.2 适用场景比较小三.MapReduce工作原理3.1 MapReduce编程规范MapperReducerDriver3.2 MapReduce程序示例四.MapReduce中的序列化4.1 Hadoop序列化特点:一.MapReduce简介MapReduce是一个分布式运算程...
2020-01-24 16:07:26 3882
原创 HDFS分布式文件系统知识总结
文章目录一.分布式文件系统HDFS二.HDFS的特点及适用场景2.1 HDFS的高容错性2.2 HDFS的适用场景三.HDFS架构3.1 HDFS集群中的主要角色3.2 NameNode和Secondary Namenode的工作原理FsImage和EditsNameNode和Secondary Namenode的工作流程NameNode和Secondary Namenode功能详解3.3 Dat...
2020-01-22 15:46:25 1914
原创 使用虚拟机搭建ClouderaManager平台,并自动部署一个hadoop集群(CDH)
本文将从最基础的环境配置开始,介绍如何在Linux虚拟机中搭建一个CM集群,并使用CDH自动部署一个Hadoop集群。文章目录一.CM及CDH介绍CMCDH二.准备工作2.1 硬件资源分配2.2 下载需要的各种安装包1.基础工具JDK和MySQL2.CM安装包3.CDH离线库2.3 安装JDK2.4 设置免密登录2.5 关闭SELINUX2.6 安装MySQL并创建CDH需要的数据库安装MySQ...
2020-01-19 09:55:22 1924 4
原创 Linux虚拟机扩容
文章目录第一步:关闭虚拟机,在设置里添加存储空间第二步:将新增的硬盘空间设置分区并格式化查看已有分区创建新分区格式化新分区第三步:将分区挂载到某一个目录下第一步:关闭虚拟机,在设置里添加存储空间我用的是vmvare,虚拟机关闭后,点击设置,在硬盘选项中选择扩展。设置磁盘大小,注意这里是填写扩容后的磁盘的大小,而不是要扩展多少。我现有的硬盘大小为20G,需要增加60G的容量,在下面的输入框中输入...
2020-01-17 17:13:51 1385
原创 Linux中阶知识总结
文章目录Linux目录结构“一切皆文件”思想目录结构及各文件目录的详情vi编辑器vi编辑器的三种模式及其转换一般模式编辑模式指令模式Linux运行级别runlevelLinux分区Linux默认的三个分区:boot分区swap分区根分区Linux目录结构“一切皆文件”思想Linux 中所有内容都是以文件的形式保存和管理的,即一切皆文件,普通文件是文件,目录(Windows 下称为文件夹)是文...
2020-01-17 12:07:04 396
原创 简便方法搭建Harbor镜像仓库
HarborHarbor是一款功能非常强大的私有镜像仓库,有完善的UI界面和用户权限管理机制。但是安装比较麻烦,我试过几个版本都失败了。版本比较新的Harbor都选择使用HTTPS协议来传输镜像,需要非常多麻烦的步骤来配置HTTPS需要的CA证书等。所以我找了一个版本比较低的Harbor1.8版本,使用HTTP协议来上传下载镜像,搭建过程要简单许多。我的方法是直接使用已经配置好的Harbor安...
2020-01-08 17:26:02 374
原创 使用ubuntu18搭建nfs分布式文件系统
NFS分布式文件系统NFS就是Network File System的缩写,是一个分布式文件系统。在一个PC中使用NFS工具搭建一个NFS服务器,然后其他PC安装NFS客户端工具,将网络中的NFS服务器共享的网络磁盘挂载到本地端的文件系统中。在NFS客户端就可以像操作自己本地的磁盘一样,操作这个共享的网络磁盘,在使用上相当便利。这个共享的网络磁盘中的所有文件都是存储在NFS服务器端,NFS客户...
2020-01-06 16:53:31 1182
转载 Kubernetes持久化方案(PV、PVC、StorageClass)
本文转载自:PV、PVC、StorageClass讲解文章目录Kubernetes中的持久化PVPVC在pod中使用PVCKubernetes实现持久化存储的方式持久化存储宿主机挂载远程目录文件存储设备块存储设备小结StorageClass本地持久化存储Kubernetes中的持久化持久化是为了方便开发人员更加容易的使用存储才出现的概念。通常我们在一个POD中定义使用存储是这样的方式,我们以...
2020-01-05 14:38:25 1221
原创 使用Pycharm管理Python依赖库(不使用anaconda)
anaconda使用时出了一些问题,很头痛,故直接卸载。卸载后python库管理起来又不太方便,后来发现在Pycharm中也是可以管理python库的,而且还很好用,也很简单。第一步,升级pip不升级pip到最新版本在Pycharm中下载依赖库时会报错python -m pip install --upgrade pip第二步,在Pycharm中配置python打开Pycharm,f...
2019-12-26 11:38:39 8794 4
原创 微服务与虚拟化技术博客总结
本文是在我读了大量和微服务技术和docker容器技术相关的技术博客后,对读过的重点文章的整理归类微服务相关理解微服务微服务概念的介绍,主要讲了微服务是什么,微服务主要涉及的技术及微服务在企业中使用时需要考虑到的一些问题。新手也能看懂,消息队列其实很简单这篇文章详细的介绍了消息队列的概念,对大型分布式系统的意义,将常用的消息队列之间进行了比较RabbitMQ中文文档RabbitMQ是最...
2019-12-23 20:33:50 812
原创 Kubernetes学习笔记及重点知识解析
本文是我在学习Kubernetes的过程中做的一些笔记,记录了一些Kubernetes比较重要的知识,供想要入门Kubernetes的程序员参考
2019-12-23 20:26:13 588
原创 设计并搭建Python容器化项目的CI/CD流水线
文章目录前言一.CI/CD是什么DevOps二.CI/CD流水线中的组件JenkinsGogs三.Python容器化项目的CI/CD流水线设计前言本文的内容主要是为Python容器化项目设计一个CI/CD流水线。这个流水线中涉及到的应用有:Gogs,Jenkins,docker,Harbor,Kubernetes。本文会详细讲解如何安装以上几个应用,以及如何进行必要的设置来使流水线能够完成理想...
2019-12-22 19:39:25 4161
原创 使用Rancher搭建Kubernetes集群
Kubernetes是一个由Google退出的非常优秀的容器管理平台,但是它复杂的搭建过程让很多人望而生畏。由于搭建过程太复杂,而且容易出错,很多刚开始学习Kubernetes的新手常常需要花几天时间才能搭建好一个能够正常使用的Kubernetes集群,非常浪费时间。Rancher是一个企业级Kubernetes集群管理平台,它有完善的Kubernetes集群管理功能和精美的交互界面,同时它还提...
2019-12-22 15:20:48 1316 1
原创 使用nameko框架实现Python项目微服务化
文章目录一.微服务架构微服务架构的实现方式同步通信异步通信二.nameko微服务框架2.1 入门案例--使用nameko框架实现微服务程序1 ) 安装注册中心2 ) 服务生产者和服务消费者3 ) 启动微服务2.2 nameko框架实现原理一.微服务架构微服务架构有众多的优点,在现在的企业级项目中被广泛的应用。本文主要讨论如何使用Python相关技术实现微服务架构,不就微服务做过多的解释,如果想...
2019-12-21 20:48:13 4065 1
原创 消息队列与RabbitMQ
文章目录一.消息队列1.1 通过异步处理提高系统性能1.2 降低系统耦合性1.3 常用的几种消息队列及其比较ActiveMQRabbitMQkafka二.RabbitMQ1.简单队列2.工作队列3.发布/订阅4.路由5.主题交换机6.远程调用过程RPC本文借鉴了新手也能看懂,消息队列其实很简单中有关消息队列的部分内容一.消息队列消息队列是一个存放消息的容器,当我们需要使用消息的时候可以取出消...
2019-12-21 19:20:59 526
转载 理解微服务
文章目录前言一、微服务介绍1.什么是微服务2. 微服务由来3. 为什么需要微服务?3.1 早期的单体架构带来的问题1.复杂性逐渐变高2.技术债务逐渐上升3.部署速度逐渐变慢4.阻碍技术创新5.无法按需伸缩3.2 微服务与单体架构区别3.3 微服务与SOA区别4. 微服务本质5. 什么样的项目适合微服务6. 微服务折分与设计6.1 微服务设计原则单一职责原则服务自治原则轻量级通信原则接口明确原则7....
2019-12-21 16:52:18 484
原创 JavaScript上传文件,不打断点就上传失败
今天在用vue写前端代码时遇到了一个令人很摸不着头脑的问题。一段上传文件并读取文件内容的程序,在程序内打断点后就能成功读取上传的文件的内容,不打断点就没法读到内容。代码如下:new Vue({ el: "#training", data: { result: "这是文件路径", }, methods: { uploadfile_: ...
2019-12-02 22:18:35 546
原创 kubernetes集群Pod详细信息为Failed create pod sandbox,缺失镜像google_containers/pause-amd64.3.0解决方法
在kubernetes集群上部署Pod时Pod的状态一直为ContainerCreating使用命令kubectl describe pod podname查看Pod信息,显示Failed create pod sandbox.使用命令journalctl -u kubelet -f查看系统日志中有关kubelet的信息发现错误原因为Error response from daemon: ...
2019-11-01 10:11:58 2944
原创 安装双系统后无法进入第二系统
安装双系统后,开机直接进入了默认的原系统,没有出现选择页面让选择进入哪一个系统,出现这种问题的原因是因为系统的引导启动项没有设置好,有两个软件可以解决这个问题,一个是NTBOOTautofix,专门用来修复和设置windows系统的引导启动项,特点是体积小,使用方便,一键修复,但是局限性大,EasyBCD体积要大一些,而且,可以为各种系统配置系统的引导启动项,功能强大NTBOOTautofix使...
2019-10-31 21:34:10 23824
harbor1.8安装包
2020-01-08
JEE商城源代码
2019-04-12
hadoop2.7.1的Windows版本
2019-03-30
ik_analyzer中文分析器solr6版及以下版本适用(完整版)
2018-04-16
ik_analyzer中文分析器solr6版及以下版本适用
2018-04-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人