![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
CrystalheartLi
路漫漫其修非常远兮,吾将上下左右前后而求索。
展开
-
BERT和ERNIE中[PAD],[CLS],[SEP],[MASK],[UNK]所代表的含义
在BERT和ERNIE等预训练模型的词汇表文件vocab.txt中,有[PAD],[CLS],[SEP],[MASK],[UNK]这几种token,它们代表的具体含义如下:1,[PAD]要将句子处理为特定的长度,就要在句子前或后补[PAD]2,[CLS]这个标志放在句子的首位,表示句子的开始3,[SEP]这个标志用于分开两个输入句子,例如输入句子 A 和 B,要在句子 A,B 后面增加 [SEP] 标志。4,[MASK]这个标志用于遮盖句子中的一些单词5,[UNK]词典内没有的词被标为[原创 2022-04-18 14:29:14 · 4789 阅读 · 0 评论 -
NLP知识抽取三个核心子任务:实体识别、关系抽取、事件抽取简述
知识抽取:通过识别、理解、筛选、格式化,把文献中的各个知识点抽取出来,以一定形式存入知识库中的过程。目的是增强信息的可使用性和可重用性,这个过程同时又可以看作对现有的非结构化信息的语义标注过程。知识抽取一共有三个核心子功能,分别是实体抽取、关系抽取、事件抽取。一,实体抽取:也就是命名实体识别,包括实体的检测(find)和分类(classify),比如识别人名、地名等;二,关系抽取:是指自动识别实体之间具有的某种语义关系,根据参与实体的多少可以分为二元关系抽取(两个实体)和多元关系抽取(三个及以上实体)原创 2021-10-20 11:09:16 · 8138 阅读 · 0 评论 -
浅谈公有知识图谱和私有知识图谱
以下观点知识个人的一些理解,可能不太正确,希望有大佬看到能批评指正!首先,公有知识图谱(以下简称公有)和私有知识图谱(以下简称私有)是相对的概念,以集团公司、子公司、子公司某部门这三个层级举例,子公司所构建的知识图谱相对于集团公司所构建的知识图谱就很可能是私有与公有的关系,子公司某部门所构建的知识图谱相对于子公司所构建的知识图谱也可能是私有与公有的关系;子公司这一级别的知识图谱既可以是公有也可以是私有,主要看相对于它的上级还是下级。再者,为什么会有公有和私有之分?从定义上来说,知识图谱是巨大的,因为它试原创 2021-10-11 17:08:09 · 237 阅读 · 0 评论 -
one-hot编码的流程步骤
一,基本概念:1.确定要编码的对象2.确定分类变量、特征3.将其转化为二进制向量表示二,举例比如要对[“青年”, “中年”, “老年”,“中年”]进行one-hot编码1,确定要编码的对象:["青年", "中年", "老年","中年"]2,确定分类变量、特征:["青年", "中年", "老年"] 一共有三种类别或者说三个特征3,将其转化为二进制向量表示因为一共有三个特征,所以编码对象的每个样本一共用三位二进制表示: 青年 中年 老年青原创 2021-01-15 11:20:17 · 1169 阅读 · 0 评论