![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 53
NLP学习
Elvira521yan
这个作者很懒,什么都没留下…
展开
-
什么是FairScale
什么是FairScale。原创 2023-12-21 11:01:31 · 417 阅读 · 0 评论 -
卷积核的kernel size为什么要设置为奇数
kernel size设置奇数的原因原创 2022-06-16 11:31:23 · 2248 阅读 · 0 评论 -
BERT cased和uncased的区别
cased:支持大小写uncased:仅支持小写(词表中只有小写,数据处理时需要进行lower处理)原创 2021-12-20 15:03:24 · 1979 阅读 · 0 评论 -
【NLP任务】CoNLL-2003独立于语言的命名实体识别(II)
pass原创 2021-06-20 20:03:55 · 1410 阅读 · 0 评论 -
【NLP公开数据集】 CoNLL-2003数据集
CoNLL-2003命名的实体数据由八个文件组成,涵盖两种语言:英语和德语。每种语言都包含:训练集、开发集、测试集、无标签数据;其中wu'biao原创 2021-06-18 17:38:36 · 11474 阅读 · 0 评论 -
Batch Normalization、Instance Normalization和Layer Normalization
Normalization引入:虽然不是所有模型都需要以“独立同分布”为基础,但它可以简化常规机器学习模型的训练、提升机器学习模型的预测能力;白化(数据预处理)(1)去除特征之间的相关性 —> 独立;(2)使得所有特征具有相同的均值和方差 —> 同分布。Internal Covariate Shift是指源空间和目标空间的条件概率是一致的,但是其边缘概率不同;对于神经网络...原创 2021-03-28 22:52:27 · 419 阅读 · 0 评论 -
常用激活函数
激活函数的目的:增加神经网络的非线性(只有线性的情况下网络的表达能力有限)激活函数sigmoidrelutanhELU输出区间(0,1)(0,∞\infty∞)(-1,1)(-1,∞\infty∞)导数区间(0,14\frac{1}{4}41)0,1[0,1)(0,1]优点平滑;易求导;计算量小;缓解梯度弥散和梯度爆炸问题;避免过拟合原点对称能够缓解梯度弥散,稀疏性使得对输入变化或噪声更鲁棒缺点计算量大;存在梯度消失问题没有完全解决原创 2021-03-28 16:42:18 · 110 阅读 · 0 评论 -
【NLP公开数据集】NCBI疾病数据集
NCBI疾病数据集是一个在提及和概念层面进行全面标注的数据集。数据包含:793篇摘要2783个句子6892个疾病mention790个唯一疾病概念– 医学主题词【Medical Subject Headings (MeSH®)】– 人类孟德尔遗传学【Online Mendelian Inheritance in Man (OMIM®)】mention表中的91%都由一个疾病概念一一对应,分成训练集、验证集和测试集数据标注:14个标注人员每个文档都有2个标注人员(随机分配)3个标原创 2021-03-28 13:02:53 · 2347 阅读 · 0 评论 -
【NLP公开数据集】OntoNotes Release 5.0数据集介绍
OntoNotes 5.0是OntoNotes项目的最后一个版本,是BBN Technologies、科罗拉多大学、宾夕法尼亚大学和南加州大学信息科学研究所之间的合作项目。该项目的目标是对一个大型语料库进行注释,该语料库由三种语言(英语、汉语和阿拉伯语)的各种类型的文本(新闻、电话对话、网络日志、usenet新闻组、广播、脱口秀)组成,包含结构信息(语法和谓词论证结构)和浅层语义(与本体和核心参考相关联的词义)。数据具体情况如下: Arabic English Chinese.原创 2020-11-12 12:06:18 · 8608 阅读 · 2 评论 -
【NLP公开数据集】FUNSD dataset 数据集介绍
数据集介绍一个可用于FUNSD(噪声很多的扫描文档)上进行表单理解的数据集。这里的表单理解是指对表单中的文本内容进行抽取,并生成结构化数据。数据集包含199个真实的、完全注释的、扫描的表单。文档有很多噪声,而且各种表单的外观差异很大,因此理解表单是一项很有挑战性的任务。该数据集可用于各种任务,包括文本检测、光学字符识别、空间布局分析和实体标记/链接。第一个具有完整注释的公共数据集,可用...原创 2020-03-11 20:05:21 · 5009 阅读 · 7 评论