w__Y__w-CSDN博客

原创中文数据清洗

1、HTML标签去除从Web获得的数据通常包含许多HTML实体、注释，如lt；& gt；& &；，嵌入在原始数据中。这些信息属于噪音数据，会严重影响数据的质量，需要使用正则表达式去除。2、去除URL网页文本数据中，如推特、评论中，会包含一些URL和链接，根据业务需求，不是项目需要的数据，因此需要去除。3、长串数字、特殊符号去除通常情况下中文文本中长串的数字代表手机号、车牌号、用户名ID等文本内容，在非特定的文本任...

2021-12-09 14:56:33 1951

翻译《A Novel Cascade Binary Tagging Framework For Relational Triple Extraction》阅读笔记

三元组抽取的级联二级制标注框架从非结构化的文本中抽取关系三元组对大规模知识图谱的构建是非常重要的。现有的方法很少有解决重叠标签的问题，即在一个句子中多个三元组共享相同的实体，如下图所示。在这篇论文中，是从一个新的视角重新回顾了关系三元组抽取任务，提出一个新的级联二进制标注框架。在先前的工作中将关系视为离散标签，新框架则是将关系建模为一个句子中头实体到尾实体的映射函数，解决了重叠标签的问题。在关系三元组抽取方面，早期的工作采用pipeline方法，即先识别句子中所...

2021-12-08 15:24:31 578

原创 L1-norm (L1范数) L2-norm(L2范数)

L1-norm (L1范数) L2-norm(L2范数)同样存在L0、L3等，L1、L2范数应用比较多。一个向量的 norm 就是将该向量投影到 [0, ∞) 范围内的值，其中 0 值只有零向量的 norm 取到。不难想象，将其与现实中距离进行类比，在机器学习中 norm 也就总被拿来表示距离关系：根据怎样怎样的范数，这两个向量距离多远。这里怎样怎样的范数就是范数的种类，即p-norm，严格定义为：当p取1时被称为1-norm，也就是L1-norm，同理可得L2-norm。L1..

2021-12-08 15:22:09 22452

原创 BILSTM模型介绍

BiLSTM是Bi-directional Long Short-Term Memory的缩写，是由前向LSTM与后向LSTM组合而成。LSTM模型是由在RNN基础上增加了输入门，遗忘门，单元状态，输出门组成。在网络训练过程中，可通过门结构来添加或移除信息，不同神经网络都可通过单元状态上的门结构来决定去记住或遗忘哪些相关信息。LSTM的计算过程可以概括为，通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递，而无用的信息被丢弃，并在每个时间步都会输出...

2021-12-08 15:08:58 8382

原创 BERT模型介绍

BERT 模型BERT的网络架构是基于Vaswani et al. (2017) 中描述的原始实现的multi-layer bidirectional Transformer编码器。BERT使用双向的Transformer，在所有层中同时学习上下文语境特征信息。1、输入表示BERT模型的输入表示能够在一个token序列中明确地表示单个文本句子或一对文本句子。对于给定的token，通过对相应的token embeddings、segment embeddings和p...

2021-12-08 15:04:49 2318