![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 74
饕子
我是北大信息管理系大数据管理与应用方向学生,我对人工智能、计算机视觉、计算机图形学、文本挖掘、搜索引擎、机器学习(深度学习)、计算神经科学、知识图谱、NLP等方向感兴趣。
展开
-
探究Salient Span Masking:技术专家也能会心一笑
不像传统的Masked Language Model(MLM)会随机地遮住一些单词让模型猜,Salient Span Masking直奔重点,专挑文中的「香味十足」部分——也就是信息量大的token(词汇单元),比如专业名词或是关键短语,来进行遮挡。Salient Span Masking学的就是这门“捡重点”的手艺,把机器引导至文本的精髓所在,效仿我们阅读时的重点标记习惯,提升语言模型的高效学习能力。牢记哟,唯有不断学习和实践,才能保持在技术的巅峰,嗯,至少在会议上装逼也得装得心安理得。原创 2024-02-16 14:34:20 · 869 阅读 · 0 评论 -
Semantics学习笔记
Semantics(语义学)是自然语言处理(NLP)领域的一个重要分支,研究语言单位(例如词、短语和句子)的意义和解释。在本篇博客中,我们将深入探讨Semantics的基本概念、主要任务和常见方法,并介绍一些相关的研究成果和应用实例。原创 2023-07-20 15:53:34 · 245 阅读 · 0 评论 -
TextRank,超全解释
TextRank算法是一种用于文本处理的算法,可以根据节点与节点之间的权重关系来提取文本中的关键信息。该算法使用了图形化模型和迭代计算方法来更新节点的权重值。本文详细介绍了TextRank算法的原理、应用、算法流程和公式解析等方面,以及其优缺点,希望对您有所帮助。原创 2023-06-15 10:23:07 · 3812 阅读 · 1 评论 -
BM25,超全解释
BM25算法是一种用于信息检索的算法,可以根据文档和查询条件之间的相似度来计算文档与查询条件之间的匹配程度得分。该算法考虑了文档长度、查询项频率和文档频率等因素,并在计算匹配得分时进行加权。本篇博客详细介绍了BM25算法的原理、应用、算法流程和公式解析等方面,以及其优缺点,希望对您有所帮助。原创 2023-06-15 10:17:39 · 4510 阅读 · 0 评论 -
LSA/LSI,超全解释
LSA/LSI技术是一种强大的自然语言处理技术,可以帮助我们挖掘文档集合中的隐含主题或概念,并分析它们之间的关系。本篇博客介绍了LSA/LSI技术的原理、应用和优缺点等方面,以及LSA/LSI算法流程,希望对大家有所帮助。原创 2023-06-15 10:16:34 · 462 阅读 · 0 评论 -
TF-IDF学习笔记
TF-IDF 是一种常用的文本挖掘技术,它可以提取文章的关键词、分类文章、检索相似文章以及网页搜索等。掌握 TF-IDF 技术,有助于我们更好地进行文本挖掘和信息检索工作。原创 2023-06-02 23:06:01 · 59 阅读 · 0 评论 -
Glushkov自动机学习笔记
本文介绍了Glushkov自动机的基础概念、生成过程和应用。Glushkov自动机是一种高效的在字符串中搜索模式的算法,它直接从正则表达式生成DFA,并且可以对复杂的正则表达式进行匹配。由于其高效的匹配速度和灵活的正则表达式支持,Glushkov自动机在编译器和解释器中得到了广泛应用。原创 2023-05-11 19:13:56 · 128 阅读 · 0 评论 -
近似匹配:编辑距离的计算
本文介绍了编辑距离的定义、动态规划算法实现以及应用场景。编辑距离是一种非常有用的技术,可以帮助我们计算两个字符串之间的相似性,是自然语言处理和计算机科学中重要的概念之一。原创 2023-05-11 19:09:55 · 378 阅读 · 0 评论 -
重叠自动机算法
本文介绍了重叠自动机的基础概念、算法实现以及应用场景。重叠自动机是一种新颖的自动机模型,在自然语言处理中具有广阔的应用前景。原创 2023-05-11 19:05:45 · 29 阅读 · 0 评论 -
字符串匹配:自动机
本篇文章介绍了字符串匹配中的自动机算法,包括自动机的基本概念、应用领域、暴力匹配算法、KMP算法和AC自动机算法。其中,AC自动机算法是一种基于Trie树的多模式字符串匹配算法,具有高效、灵活、可扩展等特点。在实现AC自动机算法时,我们需要先构建Trie树,然后使用BFS遍历Trie树,并为每个节点添加失败指针,最终构建出AC自动机。在查找匹配时,我们可以按照文本串的顺序依次遍历字符,并根据当前字符和当前节点的转移关系来更新当前节点,直到找到匹配结果或遍历完整个文本串。原创 2023-05-10 13:25:14 · 474 阅读 · 0 评论 -
K-Bert:将知识图谱赋能NLP的革命之举
KBert是一种基于知识图谱的预训练语言模型,在预训练阶段将实体、关系信息融入到模型中,使其能够更好地理解文本背后的语义和丰富的知识信息。同时,在下游任务中还可以将知识库作为外部知识和约束条件来指导模型进行学习和推断,大幅提高模型的精度和效果。通过本篇文章的介绍,我们了解到了KBert的基本原理、应用场景和实现方法。KBert作为一种基于知识图谱和深度学习的语言模型,充分利用了知识库中的丰富信息,通过多任务学习和知识融合机制,提高了模型在下游任务中的表现和性能。原创 2023-07-19 20:03:17 · 232 阅读 · 0 评论 -
UniLM学习笔记
在摘要任务中,UniLM通过对文章中的每个句子都进行摘要,得到摘要的内容,并根据摘要的内容生成最终的摘要。原创 2023-05-08 10:36:20 · 121 阅读 · 0 评论 -
LSTM学习笔记
LSTM作为一种经典的循环神经网络,具有门控机制,能够更好地解决梯度消失的问题。LSTM的结构包括输入门、遗忘门、输出门和记忆单元。在训练过程中,我们通过反向传播算法对模型参数进行优化,从而使得模型能够更好地预测序列数据。原创 2023-05-08 10:33:43 · 476 阅读 · 0 评论 -
BiLSTM学习笔记
本篇博客主要介绍了BiLSTM的原理、训练方法和应用场景等方面,希望能对初学者提供一些参考信息。当然,BiLSTM的应用远不止于此,在研究和实践中我们还可以发掘更多有趣的点。原创 2023-05-08 10:30:49 · 2622 阅读 · 0 评论 -
PFN学习笔记
PFN是一家专注于深度学习技术的企业,其技术和应用在多个领域都得到了广泛的研究和应用。本篇博客对PFN的背景、技术和应用进行了简单的介绍,希望能对大家在相关领域的研究和实践有所帮助。原创 2023-05-08 10:22:58 · 156 阅读 · 0 评论 -
GPLinker学习笔记
GPLinker是一种基于图神经网络和注意力机制的方法,用于预测蛋白质-受体相互作用。本篇博客对GPLinker的原理、实现和应用进行了简单的讲解,希望能对大家在相关领域的研究和实践有所帮助。原创 2023-05-08 10:20:36 · 553 阅读 · 0 评论 -
Roberta学习笔记
Roberta作为目前最为先进的语言模型之一,在自然语言处理领域中有着广泛的应用。本篇博客对Roberta的原理、实现和应用进行了简单的讲解,希望能对大家在相关领域的研究和实践有所帮助。原创 2023-05-08 10:16:49 · 461 阅读 · 0 评论 -
文本挖掘学习笔记
文本挖掘是一种从大规模的非结构化数据中提取出有用的信息和知识的技术。本篇笔记将介绍文本挖掘的基本概念及其常用方法。原创 2023-05-06 00:18:44 · 173 阅读 · 0 评论