NLP理论基础和实践（进阶）task—02

最新推荐文章于 2021-12-06 17:55:05 发布

renlei2293

最新推荐文章于 2021-12-06 17:55:05 发布

阅读量320

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41918762/article/details/98987773

版权

NLP 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

NLP理论基础和实践（进阶）记录。时间周期：两周
Task

文章目录

一、one-hot
- - 词袋模型(BOW,bag of words)
  - TF-IDF（term frequency–inverse document frequency）
二、word2vec/word embedding/word representations

一、one-hot

词袋模型(BOW,bag of words)

词袋模型是自然语言处理中在建模文本时常用的文本表示方法。

词袋模型是在自然语言处理和信息检索中的一种简单假设。在这种模型中，文本（段落或者文档）被看作是无序的词汇集合，忽略语法甚至是单词的顺序。

把句子转换成一个稀疏向量。

规则是：对应索引位置上的单词存在，则对应索引值是1

TF-IDF（term frequency–inverse document frequency）

主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。

计算公式：
$w_{tf-idf}=w_{tf} \cdot \log {\frac{1}{w_{df}} }$
其中， $w_{tf}$ 是文档的词频， $w_{df}$ 是包含该单词的所有文档的总频率

参考：https://baike.baidu.com/item/tf-idf/8816134?fr=aladdin

二、word2vec/word embedding/word representations

Idea:

• We have a large corpus of text

• Every word in a fixed vocabulary is represented by a vector

• Go through each position t in the text, which has a center word c and context (“outside”) words o

• Use the similarity of the word vectors for c and o to calculate the probability of o given c (or vice versa)

• Keep adjusting the word vectors to maximize this probability

基本思想：创建词向量来体现单词的上下文关系，给出一个上下文相关的单词集合来预测目标单词

(a)连续词带管理(CBOW)

给定上下文预测中心的单词

(b)skip-gram模型

给定中心单词预测上下文

参考：http://www.hankcs.com/nlp/word2vec.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。