NLP
文章平均质量分 86
页页读
这个作者很懒,什么都没留下…
展开
-
【名词解释】ImageCaption任务中的CIDEr、n-gram、TF-IDF、BLEU、METEOR、ROUGE 分别是什么?它们是怎样计算的?
n-gram是自然语言处理(NLP)中一种基本的概念,它指的是文本中连续的n个项(可以是音节、字或词)组成的序列。n-gram模型通过考察这些连续项的出现概率来捕捉文本中的语言规律,从而用于各种语言模型和文本处理任务,如拼写检查、语音识别、机器翻译以及搜索引擎中的查询预测等。TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本挖掘的常用加权技术。它反映了一个词在文档集合中的重要性。原创 2024-04-02 15:04:09 · 1672 阅读 · 0 评论 -
【NLP基础知识】VSM | D-VSM | Word2Vec 介绍
VSM(向量空间模型)是一种在信息检索、文本挖掘和自然语言处理中广泛使用的概念,特别是在处理和比较文本文档方面。它将文本文档表示为向量,每个向量的维度对应于词汇表中的一个单词,而每个维度的值代表该单词在文档中的重要性,这通常通过词频(TF)或逆文档频率(IDF)等方法来量化。在向量空间模型中,每个文档都被表示为一个向量,向量中的每个元素对应于词汇表中的一个词。例如,假设我们有一个包含三个词的简单词汇表:{Python, 编程, 项目}。原创 2024-03-12 10:23:50 · 1013 阅读 · 0 评论 -
【笔记】Transformer模型(NLP)
Transformer 模型谷歌团队近期提出的用于生成词向量的BERT[3]算法在NLP的11项任务中取得了效果的大幅提升,堪称2018年深度学习领域最振奋人心的消息。而BERT算法的最重要的部分便是本文中提出的Transformer的概念。正如论文的题目所说的,Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。更准确地讲,Transformer由且仅由self-Attenion和Feed Forward Neural Network组成。一个基于T原创 2020-05-08 22:59:56 · 661 阅读 · 0 评论