实体提取的尝试

Ashley12345

已于 2022-04-30 16:01:48 修改

阅读量1k

点赞数

文章标签： python linux

于 2022-04-30 15:48:07 首次发布

本文链接：https://blog.csdn.net/Ashley12345/article/details/124513690

版权

实体提取的尝试

最近想实现特定领域的条款提取，找到了一篇论文可能会对其中的某个部分有帮助：
A Simple but Effective Pluggable Entity Lookup Table for Pre-trained Language Models

它的主要想法是：为了得到domain-specific的预训练模型，一般需要再训练或者引入外部知识图谱，这里为了不用再训练（耗时耗力），不用引入外部知识图谱，
因此：直接在已有经典预训练模型比如bert/roberta上面做些操作（就是直接把所有mention对应的output embedding加起来，相对比较简单的一个操作），得到实体嵌入，将传统的词嵌入和现在的实体嵌入一起放进去做表征。

另外搞其他模型的时候，硬件软件资源有限，查了查资料，现在有一些公司推出了免费虚拟主机和免费云服务器等服务，一开始觉得不太可能，后来经人推荐选择了三丰云（https://www.sanfengyun.com）的服务，感觉还不错，先练练手。

import torch
from transformers import AutoTokenizer, RobertaTokenizer, BertTokenizer, RobertaModel
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA