- 博客(144)
- 资源 (12)
- 问答 (1)
- 收藏
- 关注

原创 AAAI2020知识图谱论文集
全部列表:https://aaai.org/Conferences/AAAI-20/wp-content/uploads/2020/01/AAAI-20-Technical-Program-Schedule.pdf本文精选了知识图谱有关论文集:知识图谱补全(Graph Completion)1322: Improving Entity Linking by Modeling Latent Entity Type InformationShuang Chen; Jinpeng Wang; Feng .
2020-06-29 16:05:29
1072

原创 基于深度学习的命名实体识别与关系抽取
基于深度学习的命名实体识别与关系抽取摘要:构建知识图谱包含四个主要的步骤:数据获取、知识抽取、知识融合和知识加工。其中最主要的步骤是知识抽取。知识抽取包括三个要素:命名实体识别(NER)、实体关系抽取(RE)和属性抽取。其中命名实体识别(NER)和实体关系抽取(RE)是自然语言处理(NLP)任务中非常重要的部分。 本文将以深度学习的角度,对命名实体识别和关系抽取进行分析,在阅读本文之前,读者...
2020-03-10 09:53:45
43461
46

原创 我的保研经历(2018年9月)
我的保研经历—双非二本保研华东师范大学数据科学与工程学院 本人的本科专业是软件工程,是关于计算机专业的学生。本科为二本双非院校保研至上海985双一流院校华东师范大学数据院。虽然2019研究生推免的工作已经过去半年了,但是那一段经历仍然记忆犹新。在这半年里有很多学弟学妹询问我保研的经历以及保研的条件,在我自己的学校里也给16、17和18级同学做过经验交流,这两天没事打算以博客形式讲述本科三年的学...
2019-02-20 22:53:50
5662
22

原创 基于深度学习的知识图谱综述
随着现如今计算机设备的更新,计算能力的不断提高促使深度学习再一度推上热门技术,深度学习已经广泛应用于图像处理、文本挖掘、自然语言处理等方面,在医学、交通、教育、旅游等行业发挥极大地作用。知识图谱也在深度学习的技术下得到了很大的发展。
2018-11-22 18:42:54
8868
5
原创 快速将docker容器转移到其他Linux服务器上
快速将docker容器转移到其他服务器上 docker提供了可独立于宿主机的容器,通常单独为一个项目创建一个容器并在内部进行独立地进行环境配置。在某些场景下,需要将当前服务器的某一个docker容器转移到另一个linux服务器。因此,经过尝试,总结了一套相对比较容易的方案。首先,确保当前服务器与目标服务器是可连通的,即可通过ssh访问;在本机,将当前的容器提交为一个镜像,执行:sudo docker commit -m="这里是描述信息" [容器名称或id] [自定义的镜像名称]例如:s
2021-01-18 15:58:25
32
原创 【预训练语言模型】Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context 前记: 【预训练语言模型】系列文章是对近几年经典的预训练语言模型论文进行整理概述,帮助大家对预训练模型进行全局的理解。本系列文章将不断更新,敬请关注博主。本文分享一个对Transformer进行改进的模型Transformer-XL,其认为原始的Transformer在处理超过预定长度的文本采用分段(chunk)策略,但各个片段(segment)独立地训练,忽略
2021-01-14 10:33:53
33
原创 论文解读:Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases
论文解读:Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge Bases(2020ACL)简要信息:序号属性值1模型名称-2所属领域自然语言处理3研究内容KBQA4核心内容Beam search;Query Graph Generation5GitHub源码https://github.com/lanyunshi/Multi-hop
2021-01-06 11:38:16
38
原创 【预训练语言模型】ERNIE: Enhanced Language Representation with Informative Entities(ERNIE)
ERNIE: Enhanced Language Representation with Informative Entities(ERNIE) 前记: 【预训练语言模型】系列文章是对近几年经典的预训练语言模型论文进行整理概述,帮助大家对预训练模型进行全局的理解。本系列文章将不断更新,敬请关注博主。本文分享一个对BERT进行改进的预训练模型,其认为传统的预训练模型都只考虑了文本自身,而没有考虑到外部知识,因此作者在原有的预训练任务基础上,增加了一个结合知识图谱的预训练。 简称 :Enhanced L
2021-01-05 12:46:44
37
原创 【预训练语言模型】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(BERT)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(BERT) 前记: 【预训练语言模型】系列文章是对近几年经典的预训练语言模型论文进行整理概述,帮助大家对预训练模型进行全局的理解。本系列文章将不断更新,敬请关注博主。本文将讲解如今最为火爆的预训练模型——BERT,其于2018年底被提出,虽然已经时隔两年但依然被诸多NLP领域任务上使用,且是接下来许多预训练模型改进的出发点和baseline,在
2021-01-05 12:45:55
30
原创 【预训练语言模型】GPT: Improving Language Understanding by Generative Pre-Training
Improving Language Undersstanding by Generative Pre-Training(GPT) 前记: 【预训练语言模型】系列文章是对近几年经典的预训练语言模型论文进行整理概述,帮助大家对预训练模型进行全局的理解。本系列文章将不断更新,敬请关注博主。本文将讲解现如今预训练模型——GPT,该模式是较早的使用Transformer模型进行预训练的方法,其特点是单向的。 简称 :GPT :G enerative P re-T raining一、动机:(1)在NLP
2021-01-05 12:44:40
56
原创 【预训练语言模型】Attention Is All You Need(Transformer)
Attention Is All You Need(Transformer) 前记: 【预训练语言模型】系列文章是对近几年经典的预训练语言模型论文进行整理概述,帮助大家对预训练模型进行全局的理解。本系列文章将不断更新,敬请关注博主。本文将讲解现如今预训练模型的鼻祖——Transformer,虽然这个模型是被用于机器翻译,但是其强大的Attention并行结构使得其成为预训练模型的必备模块。 会议:2017NIPS 开源:https://github.com/tensorflow/tensor2t
2021-01-05 12:43:45
25
原创 Python类库Networkx实现图最短路径
Python类库Networkx实现图最短路径 最近在做一个有关图谱的任务,其中涉及到在图类型数据中寻找两个结点之间的最短路径,一般实现最短路径的算法可以有经典的Dijkstra和Floyd算法,不过通常自己实现起来非常麻烦,经过半小时的调研,发现了一个非常方便的工具,今天分享一个快捷高效的python类库Networkx及相关参考博客。前记【1】安装Networkx: 通常如果安装的是anaconda,一般都会将networkx类库给安装上,如果没有,则可以自行使用pip安装:pip i
2020-12-29 22:06:28
75
原创 【算法编程】用栈实现另一个栈的排序
【算法编程】用栈实现另一个栈的排序 给定一个栈,对其进行排序,使得栈顶至栈底的为降序,只能申请一个栈和变量,不能使用数组或多余的栈等数据结构. 试题来源:Coding Interviewing Guided (Page 12) 难度:★★★☆☆思路一C++源码://用一个栈实现另一个栈的排序//给定一个栈,对这个栈进行排序,使得栈顶至栈底的元素为降序排列,注意,只允许创建另一个栈,或相关的变量,不能使用数组等数据结构#include <iostream>#include
2020-12-29 21:42:29
14
原创 知识图谱核心技术(一):知识图谱的概述
知识图谱核心技术(一):知识图谱的概述 前言: 知识图谱作为一项新的研究领域,极大地推动了人工智能的智能化发展,传统意义上的人工智能大多以数据驱动为核心,但离智能化还有一定的差距。知识图谱作为以知识为驱动的核心,将促使人工智能应用以知识赋能,促使计算机更具有推理力、解释性。博主经过多年的研究,结合自身的论文阅读和科研经历,并借助复旦大学知识工场团队编写的《知识图谱概念与技术(肖仰华)》作为理论支撑,编写《知识图谱核心技术》博客文章。一、知识图谱概念 知识图谱在最初是属于谷歌公司的一个智能搜索的产
2020-12-28 08:48:18
138
1
原创 【算法编程】递归实现栈的逆序
【算法编程】递归实现栈的逆序 给定一个栈,在不使用额外数据结构和逆序类库的条件下实现栈内元素的逆序。例如入栈的顺序为12345,逆序后对应的出栈的顺序也是12345. 注意:不能使用额外的数据结构,因此传统的借助一个新的栈这种方法则不可以! 试题来源:Coding Interviewing Guided (Page 7) 难度:★★★☆☆C++源码://题目:给定一个栈,使用递归方法将其逆序;#include<iostream>#include<stack>
2020-12-27 16:21:58
23
原创 远程服务器Docker内配置和访问JupyterLab
远程服务器Docker内配置和访问JupyterLab相关文章 如果远程服务器docker想通过pycharm实现代码调试,可参考博客pycharm与ssh远程访问服务器docker 如果远程服务器docker想部署Flask项目,可参考博客远程服务器docker部署Flask+MongoDB项目配置方法: 任意选择一个镜像,并创建相应的容器,创建容器及容器内的ssh和防火墙配置其可参考上述的两个文章。需要注意的是,jupyter-lab默认使用端口8889,因此在run时候要额外增加一个端
2020-12-24 13:58:51
25
原创 论文解读:Explicit Utilization of General Knolwdge in Machine Reading Comprehension
论文解读:Explicit Utilization of General Knolwdge in Machine Reading Comprehension简要信息:序号属性值1模型名称KAR2所属领域问答系统,自然语言处理3研究内容机器阅读理解4核心内容Data Augmentation5GitHub源码6论文PDFhttps://arxiv.org/pdf/1809.03449v2摘要: 为了弥补机器阅读理解和人
2020-12-21 15:20:41
31
原创 论文解读:Improving the robustness of machine reading comprehension model with hierarchical knowledge and
论文解读:Improving the robustness of machine reading comprehension model with hierarchical knowledge and auxiliary unanswerability prediction摘要: 先前深度学习方法在MRC任务上均成功应用,但他们普遍脆弱且在给定一些对抗噪声时不鲁棒。为了提升MRC,我们通过引入额外知识库的信息增强模型的表征能力,其次引入辅助不可回答预测模块并使用监督类的多任务学习来进行抽取式答案区间预测。
2020-12-21 11:36:11
30
原创 论文解读:Graph Transformer for Graph-to-Sequence Learning
论文解读:Graph Transformer for Graph-to-Sequence Learning 图神经网络在深度学习领域内得到十分广泛的应用,其可以对拓扑结构的数据进行表征。现阶段传统的以GNN及其相关变体在进行表征时普遍做法是将结点多跳范围内的邻居结点通过平均或加权等方式进行聚合,但这类方式存在一些不足之处,本篇文章提出的Graph Transformer模型主要解决含有关系以及在有限跳数范围内部分结点之间信息无法得到交互的问题,并应用到graph-to-sequence类问题上。一、简
2020-12-07 22:12:37
151
原创 从文本中自动抽取结构化三元组
从文本中自动抽取结构化三元组参考文献【1】:ICDM2019 Knowledge Graph Contest: Team UWA参考文献【2】:Seq2KG: An End-to-End Neural Model for Domain Agnostic Knowledge Graph (not Text Graph) Construction from TextGitHub:https://github.com/Michael-Stewart-Webdev/Seq2KG现有工作缺点: Open
2020-11-30 16:24:23
304
2
原创 机器阅读理解算法集锦
机器阅读理解算法集锦 机器阅读理解(Machine Reading Comprehension, MRC) 是一项基于文本的问答任务(Text-QA),也是非常重要和经典的自然语言处理任务之一。机器阅读理解旨在对自然语言文本进行语义理解和推理,并以此完成一些下游的任务。具体地讲,机器阅读理解的任务定义是:给定一个问句(question) qqq,以及对应的一个或多个文本段落(passage) ppp,通过学习一个模型 fθf_\thetafθ ,使得其可以返回一个具体的答案,记做 a=fθ(q,p
2020-11-29 14:14:49
132
原创 中文维基百科数据爬取与预处理
中文维基百科数据爬取与预处理 前言:阅读本篇博文,您将学会如何使用scrapy框架并基于层次优先队列的网页爬虫以及维基页面的结构与半结构数据自动抽取。项目已经开源于GitHub地址:https://github.com/wjn1996/scrapy_for_zh_wiki,欢迎Star或提出PR。 维基百科(wikipedia) 是目前最大的开放式开放领域百科网站之一,包含包括英文、中文等多种语言。现如今在众多人工智能自然语言处理任务中均取自于维基百科,例如斯坦福大学开源的机器阅读理解评测数据集S
2020-11-26 22:42:59
344
1
原创 论文解读:QANet: Combine Local Convolution with Global Self-Attention for Reading Comprehension
QANet: Combine Local Convolution with Global Self-Attention for Reading Comprehension简要信息:序号属性值1模型名称QANet2所属领域问答系统,自然语言处理3研究内容机器阅读理解4核心内容self-attention; layer-normalization; CNN5GitHub源码https://github.com/search?q=QANet
2020-11-17 11:29:29
60
原创 论文解读: R3:Reinforced Ranker-Reader for Open-Domain Question Answering
论文解读: R3R^3R3:Reinforced Ranker-Reader for Open-Domain Question Answering 开放领域问答主要目标是从开放的资源中寻找答案,在目前自动问答任务中十分关键。本文是一篇2017年AAAI会议的问答系统,其认为当前大多数的问答都是基于事先提取好的候选文本作为抽取答案的passage,而并不符合实际应用;而在实际中,需要结合信息检索方法来自主地搜索与问题相关的passage并进行答案的抽取,这一过程非常繁琐,且依赖于检索的候选passage的
2020-11-11 11:18:49
110
1
原创 远程服务器docker部署Flask+MongoDB项目
远程服务器docker部署Flask+MongoDB项目 最近学习了一下如何在远程服务器的docker内部署一个python的flask项目,为了能完成部署,你需要具备如下几个条件:拥有一个可以运行的flask项目;拥有一个远程的linux内核服务器,可以是centos、ubuntu等系统;服务器上已经安装好docker; 下面我们开始一步步部署我们的flask的项目:第一步:拉取镜像 可以去 Docker Hub 上寻找想要的镜像列表,例如可以直接搜Flask或MongoDB现成的
2020-11-07 16:30:41
79
1
原创 R-Net:问答系统机器阅读理解
R-Net:问答系统机器阅读理解摘要:问答系统在当前学术界和工业界都非常具有研究和应用价值的任务,本文分享一篇2017年的端到端的问答系统经典之作——R-Net。该工作在当时的SQuAD1.1的测试集上达到最优结果。一、SQuAD SQuAD是斯坦福NLP开放的一个机器阅读理解(文档问答系统)的评测数据集,最初是SQuAD1.1版本,现如今已经根据学术界的意见更新到SQuAD2.0版本。该数据集开源的官网是SQuAD2.0,只提供训练集和验证集,提交模型后会在测试集上进行验证,可以参与刷榜排名。本文
2020-11-04 21:10:17
88
2
原创 论文解读:MeLU:Meta-Learned User Preference Estimator for Cold-Start Recommendation
论文解读:MeLU:Meta-Learned User Preference Estimator for Cold-Start Recommendation 推荐领域内的一个痛点问题是冷启动问题,现如今许多学术界在推荐领域内的研究都指向该问题。事实上,冷启动可以认为是一种由于用户-物品交互数据缺乏所导致的,自然而然可以想到利用小样本学习的方法,使得我们训练的模型可以在很少的样本前提下就能够给出较好的推荐效果。一、简要信息序号属性值1模型名称MeLU2所属领域推荐系
2020-10-30 12:14:06
164
原创 论文解读:Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text
论文解读:Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text 知识库问答通常存在一个问题,就是由于知识库不充分导致在一定的推理范围内无法找到相应的答案,因此,可以通过引入额外非结构化文本做辅助增强。本文提出一种开放领域的知识库和文本问答方法。一、简要信息序号属性值1模型名称GRAFT-Nets2所属领域自然语言处理3研究内容知识库问答4核心内容
2020-10-23 11:25:42
115
原创 pycharm与ssh远程访问服务器docker
pycharm与ssh远程访问服务器docker 背景:有些实验需要在服务器上完成,因此为了快速便利地在本地调试远程服务器上的代码,需要完成本地与远程服务器的直连。然而现阶段诸多服务器上安装有docker,通常需要在docker内完成调试代码,因此本文主要提供远程访问服务器docker的配置方法。 需要工具及说明:pycharm:集成开发工具ssh:远程访问工具docker:容器1、配置远程服务器docker第一步:购置配置服务器(如果已有服务器跳过) 可自行在阿里云或腾讯云等服务
2020-10-09 17:37:35
1001
3
原创 基于监督学习和远程监督的神经关系抽取
神经关系抽取技术综述作者:王嘉宁 QQ:851019059 Email:lygwjn@126.com 关系抽取作为自然语言处理重要的研究领域之一,一直以来受到国内外诸多高校、科研机构的高度关注。近些年来的ACL、EMNLP、AAAI、IEEE、ICDE、IJCAI等顶会,以“Relation Extraction”或“Relation Classification”为关键字的论文逐年增加...
2020-09-27 22:03:37
3073
8
原创 A survey on Few-shot Learning (小样本学习)
A survey on Few-shot Learning (小样本学习) 机器学习已经成功地在数据密集型任务上得以应用,但通常却不能够处理数据很少的情况。最近,小样本学习(Few-shot Learning,FSL)被提出用于解决这个问题。在先验知识的基础上,FSL可以有效的涵盖一个只有极少监督信息数量样本的新任务。本文,我们将对小样本学习FSL进行一个系统的梳理。首先给出FSL一个形式化的定义,其次根据相关机器学习的问题进行分类,同时指出一个核心的关键问题即小样本学习不能依赖于传统的经验风险最小化的
2020-09-25 17:39:11
503
1
原创 抖音推荐的背后原理——大数据+推荐
抖音推荐的背后原理——大数据+推荐 大数据作为当前热门的话题,在软件开发与人工智能领域的敲门砖,各大厂都需要接触过大数据应用项目的人才。本文以大数据处理为出发点,浅层地讲述抖音推荐的背后原理。关键词:大数据、推荐系统、关系图谱、数据中台、联邦学习什么是大数据? 大数据具备5V特性分别是:(1)Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。(2)Variety:种类和来源多样化。包括结构化、半结构化
2020-09-22 12:11:43
1866
原创 2020第十七届华为杯数模C题——P300脑电信号数据预处理算法
脑电信号数据预处理 这两天的数学建模选的C题,目标是要处理脑电P300信号的数据并进行相关预测任务。该题重点是数据预处理,因此根据最后实验的结果,分享相关的预处理方法以及源代码。长话短说,给出任务的简单描述、分析方法以及相关源代码。关于2020年第十七届华为杯研究生数学建模所有赛题可前往: (https://pan.baidu.com/s/19O9J_0tnWumMe47zqk3jMg ,提取码:xx3j),赛题解压码为 任务描述:脑机接口是通过计算机检测人脑活动的系统,其通过对人体大脑各个通道检测
2020-09-21 14:50:26
941
1
原创 【算法编程】和为 K 的最少斐波那契数字数目
【算法编程】和为 K 的最少斐波那契数字数目 给定k个数,其满足斐波那契性质,从中挑选一部分数字(每个数只能被挑选1次)使得它们的和恰巧为k。目标是求出最少能够挑选几个数满足这个条件。k取值范围为 1≤k≤1091\leq k\leq10^91≤k≤109 。 试题来源: LeetCode.1414 难度:★★★☆☆【输入】k=7【输出】2【解析】斐波那契数字为:1,1,2,3,5,8,13,……,对于 k = 7 ,我们可以得到 2 + 5 = 7 。C++源代码: class
2020-09-14 20:32:01
73
原创 【推荐系统】RippleNet——基于知识图谱偏好传播的推荐系统
【推荐系统】RippleNet——基于知识图谱偏好传播的推荐系统论文名称:《RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems》PDF:https://arxiv.org/pdf/1803.03467源码地址:https://github.com/hwwang55/RippleNet.一、前言 推荐系统(Recommender System, RS)作为最经典最重要的人工智
2020-09-13 22:19:39
528
原创 论文解读:Are Noisy Sentences Useless for Distant Supervised Relation Extraction?
论文解读:Are Noisy Sentences Useless for Distant Supervised Relation Extraction? 远程监督关系抽取普遍遭受噪声的影响,先前的工作一直关注如何降低噪声对分类产生的错误影响,例如通过多示例学习以及句子级别的注意力机制,或者使用强化学习、对抗学习直接过滤噪声等。本文则完全从新的角度出发——是否可以将那些可能是噪声的标签纠正,这样即不会降低语料的数量,也能直接提升语料的质量。一、简要信息序号属性值1模型名称DC
2020-09-02 21:06:55
152
1
原创 论文解读:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings
论文解读:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings 知识库问答(KBQA/KGQA)是指给定一个自然语言问句和对应的知识库,试图从知识库中返回对应正确的答案。现如今一些方法是通过对问句中的候选实体在知识库中对齐,并获得一定跳数范围内的子图,通过排序算法或TopK算法等获得有可能的答案。但是有时候知识库是不充分的,某些目标答案需要经过非常长的推理路径才能获得,而在
2020-08-20 16:02:26
834
3
原创 k近邻算法
k近邻算法 k近邻算法是一个基本的分类回归方法,其没有显式的学习过程,而是完全取决于数据,因此k近邻是基于数据的学习算法,其只有唯一的一个参数 k(k>0,k∈N+)k(k>0,k\in\mathbb{N}_+)k(k>0,k∈N+) 。1、k近邻算法 给定一组已知数据 T={(xi,yi)}i=1i=NT=\{(x_i,y_i)\}_{i=1}^{i=N}T={(xi,yi)}i=1i=N,其中 xix_ixi 表示样本的特征向量,yiy_iyi 是对应的标签。通
2020-08-15 15:40:58
93
原创 论文解读:Multi-Task Learning with Multi-View Attention for Answer Selection and Knowledge Base Question
论文解读:Multi-Task Learning with Multi-View Attention for Answer Selection and Knowledge Base Question 知识图谱问答的任务目标是在给定一个自然问句以及对应的知识库下,找到正确的答案(实体)。本文则通过多任务学习的框架,利用多视角注意力机制完成知识图谱问答任务。1、什么是知识图谱? 知识图谱是近年来非常热门的研究内容,现如今可以和自然语言处理、计算机视觉一并作为一个新的研究领域。知识图谱通常可以抽象为知识
2020-08-14 21:11:38
217
原创 论文解读:Graph Convolutional Networks for Text Classifification
论文解读:Graph Convolutional Networks for Text Classifification 先前的文本分类方法是基于CNN或RNN进行的,只能单独的对文本自身的上下文进行语义提取,而不能够对文本之间的相关信息进行表示。随着图结构在NLP领域的大放光彩,将图引入文本分类是新的思路。一、简要信息序号属性值1模型名称Text-GCN2所属领域自然语言处理3研究内容文本分类4核心内容Text Classification,
2020-08-06 14:31:47
345
word2vec中文词向量
2019-09-28
数据结构图谱构建与关系抽取数据集.rar
2019-11-11
自然语言处理数据集——初中数学学科
2019-02-19
自然语言处理数据集——高中数学学科
2019-02-19
SemEval2010_task8_all_data.rar
2019-11-24
Movie Review.rar
2020-04-25
NYT(New York Times)Dataset for Distant Supervision Relation Extraction
2020-03-20
SSM框架整合jar包,还包括上传文件、JSTL、mysql、linux远程访问和ftp文件传输jar包
2018-11-20
空空如也
如何让自己训练的tensorflow模型通过http的形式调用
2019-05-03
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝