实体提取的尝试
最近想实现特定领域的条款提取,找到了一篇论文可能会对其中的某个部分有帮助:
A Simple but Effective Pluggable Entity Lookup Table for Pre-trained Language Models
它的主要想法是:为了得到domain-specific的预训练模型,一般需要再训练或者引入外部知识图谱,这里为了不用再训练(耗时耗力),不用引入外部知识图谱,
因此:直接在已有经典预训练模型比如bert/roberta上面做些操作(就是直接把所有mention对应的output embedding加起来,相对比较简单的一个操作),得到实体嵌入,将传统的词嵌入和现在的实体嵌入一起放进去做表征。
另外搞其他模型的时候,硬件软件资源有限,查了查资料,现在有一些公司推出了免费虚拟主机和免费云服务器等服务,一开始觉得不太可能,后来经人推荐选择了三丰云(https://www.sanfengyun.com)的服务,感觉还不错,先练练手。
import torch
from transformers import AutoTokenizer, RobertaTokenizer, BertTokenizer, RobertaModel
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA