自然语言处理
文章平均质量分 66
羊城迷鹿
你相信魔法吗?
展开
-
I Know What You Do Not Know: Knowledge Graph Embedding via Co-distillation Learning
这里可能是为了强调要把target entity预测对,损失函数分为两部分,前半部分是target,后面是非target,由于KL散度要处理的是分布,因此把target由标量转为向量如下图所示。论文以类似的提示词方式计算两个方向上的邻居嵌入并求和,不过反正最后是相加,所以其实没必要分开写。以一种递归的模式,上述基于三元组的重建过程可以推广到基于邻居子图的重建。传统的蒸馏学习中,用t表示老师,s表示学生,损失函数如下。是关系相关的提示词,会被加入词表中,下标对应不同的位置。共蒸馏确实利用了两个模型的互补性。原创 2022-10-27 13:54:20 · 529 阅读 · 0 评论 -
Inductive Entity Representations from Text via Link Prediction
定义一个带实体描述的知识图谱为G=(E,R,T,D)G=(E,R,T,D),其中一个三元组记做(ei,rj,ek)(ei,rj,ek),对实体eie_iei的文本描述为dei=(w1,…,wn)∈Ddei=(w1,…,wn)∈D链路预测的目标是让正样本的得分高于负样本Bert对文本表示进行编码,经过投影矩阵得到实体表示。原创 2022-10-17 16:48:23 · 795 阅读 · 0 评论 -
Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion
不可见实体实验,其中First Probing Task指的是测试集中只包含训练时没见过的实体,Second Probing Task指的是从训练集中随机删除实体,Third Probing Task指的是测试集中只保留训练时见过的实体。孪生神经网络的用途是显而易见的,就是判断两个相似的输入是否是相同的,比如人脸或者是签名识别等等。孪生模型还有两个变种,一种是让两个网络不共享权重甚至完全是不同结构的网络,称之为伪孪生神经网络,主要用来处理输入和输出差距较大的情况,比如说判断文章的标题和内容是否匹配。原创 2022-10-14 10:26:34 · 596 阅读 · 3 评论 -
Multi-Task Learning for Knowledge Graph Completion with Pre-trained Language Models
其实到这里就能看出来了,这篇文章做的并不是纯粹的多任务预测,因为不同任务的输入是不一样的,这里的输入就是。其实就是拉开正样本和负样本的分差,增强模型的判别能力。做链路预测时还是要把h+r+t作为输入并打分。引入关系预测和相关性排序这两个新任务。,将其名称和描述拼接,例如对于。以多任务形式训练KGBERT。为负采样结果,损失函数如下。为分类权重,损失函数如下。为打分权重,损失函数如下。对应的隐藏向量的表示,原创 2022-10-03 18:57:14 · 209 阅读 · 0 评论 -
KG-BERT: BERT for Knowledge Graph Completion
将三元组的名字和描述拼接后得到完整的句子,送入bert得到对整个三元组的表示,用这个表示去执行三元组分类任务或关系预测以微调bert。一个比较有意思的实验是,在较小的训练集比重下,也能得到很好的结果。第一篇使用预训练语言模型做知识图谱补全的论文。原创 2022-10-02 16:51:17 · 348 阅读 · 0 评论 -
IJCAI22:Language Models as Knowledge Embeddings
虽然说是对比学习,但感觉对正负样本对的定义有点奇怪,其实还是负采样,跟之前的方法没有本质区别,最大的创新点是把头实体加关系、以及尾实体分别用文本表示了看了一下github上放出来的代码,运行时间有点吓人,跑一次模型需要两天以上。原创 2022-09-16 21:15:54 · 997 阅读 · 0 评论 -
如何将字符串变量设为非转义形式
text = repr(text)等价于r"XXX"原创 2021-01-08 16:47:14 · 537 阅读 · 0 评论 -
ACL最近三年论文整理(word embedding专题)
文章目录2018Probabilistic fasttext for multi-sense word embeddingsWord embedding and wordnet based metaphor identification and interpretationA robust self-learning method for fully unsupervised cross-lingual mappings of word embeddingsLearning domain-sensitive原创 2020-11-14 15:55:05 · 1666 阅读 · 0 评论 -
基于爬取的百度百科内容构建最简单的搜索引擎
文章目录读取txt文件并进行分词实现拼写检查实现倒排索引使用TF/IDF进行文档排序对关键词进行高亮显示对各函数进行整合读取txt文件并进行分词from collections import Counterimport reimport osimport pandas as pdimport jiebapages = [open('data/page/'+x, encoding='...原创 2019-05-08 23:55:07 · 262 阅读 · 0 评论 -
nltk之查找同义词、反义词、指代关系
文章目录使用nltk中的wordnet语料库找出以下单词的同义词集、查看同义词集中的所有单词、查看同义词的具体定义及例子:dog, apple, fly查看以下单词对的语义相似度:good, beautiful;good, bad; dog, cat找出以下单词的蕴含(entailments)关系和反义词:walk, supply, hot判断下列句子中是否存在的共指指代,有的话找出共指链使用n...原创 2019-04-22 19:22:19 · 6420 阅读 · 0 评论 -
nlp作业之概率计算
Q1 : Compute the prior for the two classes + and -, and the likelihoods for each word given the class (leave in the form of fractions).import numpy as npfrom fractions import Fractionimport nltkse...原创 2019-04-22 19:19:28 · 343 阅读 · 0 评论 -
使用正向/逆向/双向三种算法进行分词操作
编写FMM函数import refrom collections import Counterimport jieba.posseg as psegglobal dicdef getFresult(str): if len(str) == 1 or str in dic: return str else: return getFresu...原创 2019-04-22 19:16:41 · 471 阅读 · 0 评论 -
使用nltk进行文本预处理
文章目录分词提取词干去除停用词和标点低频词过滤绘制位置图绘制频率分布图词汇标注得到句法树分词# coding:utf-8import nltkimport reimport stringfrom nltk.corpus import brownfrom nltk.book import *from nltk.tokenize import WordPunctTokenizer# ...原创 2019-04-22 16:40:29 · 1753 阅读 · 0 评论 -
自然语言处理之词袋模型Bag_of_words
文章目录读取训练数据BeautifulSoup处理获取词袋和向量预测结果使用随机森林分类器进行分类输出提交结果尝试使用xgb还是随机森林好用教程地址:https://www.kaggle.com/c/word2vec-nlp-tutorial/overview/part-1-for-beginners-bag-of-words读取训练数据训练数据的内容是2500条电影评论。impor...原创 2019-04-21 01:42:03 · 61965 阅读 · 0 评论 -
jupyter notebook中最好用的快捷键
notebook 自带一组快捷键,能提高效率(感 jio 有点要脱离鼠标了)。下面大概总结一下,也方便以后使用。notebook里每一个叫做cell。两种模式Command mode 和 Edit mode。 在一个cell中,按下Enter,进入Edit模式,按下Esc,进入Command 模式运行当前cell,并移动到下一个Cell在一个cell中(在command模式下), Sh...转载 2019-03-24 14:08:03 · 509 阅读 · 0 评论