
NLP
文章平均质量分 94
小陈phd
哇咔咔,过拟合,我跟你拼了;V:SWPUCWF 欢迎技术交流
展开
-
Transformer模型详解相关了解
自己阅读自己总结原创 2023-01-15 23:38:55 · 1325 阅读 · 0 评论 -
NLP从入门到实战——命名实体识别
在实际应用中,BIO和BIOES是最常用的标注方案,因为它们能够提供足够的信息来帮助模型识别实体的边界和类别。同一个词在不同的上下文中可能表示不同的实体,或者不表示实体。在某些情况下,尤其是处理中文文本时,可能会采用基于词汇的标注,直接将整个词汇标注为一个实体,而不是使用BIO或BIOES等模式。Markup方法通常指的是使用XML或类似的标记语言来注释文本中的实体这种方法可以直接在文本中标记实体的边界和类型。不同的数据集可能采用不同的实体标注方法,最常见的标注方法有BIO,BIOES,Markup。原创 2024-05-05 23:16:55 · 2128 阅读 · 1 评论 -
深度学习从入门到精通——词向量介绍及应用
词向量(Word embedding),即把词语表示成实数向量。“好”的词向量能体现词语直接的相近关系。词向量已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。词向量与词嵌入技术的提出是为了解决onehot的缺陷。它把每个词表示成连续稠密的向量,能较好地表达不同词之间的关联关系。如果两个词是关联的,那么这两个词分别对应的词向量的余弦相似度越接近于1。如果两个词关联关系比较小,那么这两个词分别对应的词向量的余弦相似度越接近于0.原创 2024-04-27 21:05:50 · 2014 阅读 · 0 评论 -
深度学习从入门到精通—Transformer
梯度消失和梯度爆炸:这是RNN最主要的问题。由于序列的长距离依赖,当错误通过层传播时,梯度可以变得非常小(消失)或非常大(爆炸),这使得网络难以学习。计算效率低:RNN由于其递归性质,必须按序列顺序执行计算,这限制了计算的并行性。对于长序列,这会导致训练过程非常慢。难以捕捉长距离依赖:尽管理论上RNN能够处理任何长度的序列,但在实践中,它们往往难以学习到输入序列中的长距离依赖关系。原创 2024-04-22 03:32:07 · 1349 阅读 · 0 评论