NLP中的Ngram算法简易原理及overlap

查到的大多数博客写的都比较复杂,在看到一个stanford cs276的课件之后,决定按照自己的理解来写一点,权做抛砖引玉了。

假定给予两个词

november

december

则unibram是

n o v e m b e r

d e c e m b e r

bigram是

no ov ve em mb be er

de ec ce em mb be er

trigram是

nov ove vem emb mbe ber

dec ece cem emb mbe ber

如果在计算两个序列之间的overlap的时候,比如对于trigram而言,其

X∪Y= 9

X∩Y =3

因此其overlap是3/9

而在276课件中,是提到了X与Y可以为不同长度。因此,我认为在X和Y的overlap比对中,并不一定需要相同位置的两个一样,即对顺序不敏感。意思是说

nov emb mbe ber ove vem和dec ece cem emb mbe ber的overlap也是3/9


276 课件链接

https://web.stanford.edu/class/cs276/handouts/lecture3-tolerant-retrieval-handout-1-per.pdf


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在自然语言处理,有许多常用的算法。以下是一些常见的算法: 1. 词袋模型(Bag-of-Words,简称BoW):将文本表示为一个词汇表每个词在文档的出现次数或频率向量。 2. TF-IDF:Term Frequency-Inverse Document Frequency 是一种用于衡量一个词在文档的重要性的指标,它结合了词频和逆文档频率。 3. N-gram 模型:N-gram 是一种用于预测下一个词或字符的模型,它考虑了前面的 N-1 个词或字符的上下文信息。 4. Word2Vec:Word2Vec 是一种基于神经网络的词嵌入模型,它将词语映射到一个低维向量空间,使得具有相似上下文信息的词在向量空间距离较近。 5. 递归神经网络(Recursive Neural Network,简称RNN):RNN 是一种具有循环连接的神经网络,可以处理序列数据,如文本。它可以捕捉上下文信息,并在处理长序列时具有记忆能力。 6. 长短期记忆网络(Long Short-Term Memory,简称LSTM):LSTM 是一种特殊类型的 RNN,通过引入记忆单元和门控机制来解决长期依赖问题。 7. 卷积神经网络(Convolutional Neural Network,简称CNN):CNN 在自然语言处理常用于文本分类和序列标注任务,通过卷积操作来提取句子或文本的局部特征。 8. 注意力机制(Attention Mechanism):注意力机制可以使模型在处理序列数据时关注到更重要的部分,提高模型的性能,如 Transformer 模型的自注意力机制。 这些算法只是自然语言处理领域的一部分,并且还有许多其他的算法和模型可供使用。具体选择哪种算法取决于任务的需求和数据的特点。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值