词向量 Word2vec 详解

NLP的常见任务

自动摘要

指代消解                          小明放学了,妈妈去接

机器翻译                           世界,你好             Hello world

词性标注                          Heat(v.) water(n.) in (p.) a (det.)  pot(n.)

分词                                 /喜欢//火锅

主题识别

文本分类

NLP处理方法

传统基于规则

现代:基于统计机器学习

HMM,CRF,SVM….

CNN,RNN….

在计算机中表示一个词

要将自然语言交给机器学习中的算法来处理,通常需要首先将语言数值化词向量技术就是将抽象的词用矩阵向量表示以供计算机处理的技术。

向量空间子结构

     VKing  - VQueen  + VWomen  = VMan        

 VParis  - VFrance  + VGerman  = VBerlin

最终目标:词向量表示作为机器学习、特别是深度学 习的输入和表示空间

表示形式

       离散表示:

        One–hot,   Bag of Words,   N-gram

     分布式表示:

        共现矩阵,Word2Vec,  Fasttext

离散表示:One-hot表示

语料库

John likes to watch movies. Mary likes ,too.

John also likes to watch football games.

词典:

{“John”:1,”likes”:2,”to”:3,”watch”:4,”movies”:5,”also”:6,

“football”:7,”games”:8,”Mary”:9,”too”:10}

One-hot表示:

John:[1,0,0,0,0,0,0,0,0,0]

likes:[0,1,0,0,0,0,0,0,0,0]

         ….

too:[0,0,0,0,0,0,0,0,0,1]

词典包含10个单词,每个单词有唯一索引

在词典中的顺序和在句子中的顺序没有关联

离散表示:Bag of Words

文档的向量表示可以直接将各词的词向量表示加和:

John likes to watch movies. Mary likes ,too.

John also likes to watch football games.

[1,2,1,1,1,0,0,0,1,1]

[1,1,1,1,0,1,1,1,0,0]

词权重:TF-IDF(Term Frequency – Inverse Document Frequency

tTF"词t的TF:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值