NLP-自然语言处理基础

NLP基础知识
1 NLP常见任务

自动摘要
指代消解   et:小明放学了,妈妈去接
机器翻译   et:小心地滑 Slide carefully
词性标注   et: heat (v.) water (n.) in(p.) a(det.) pot(n.)
分词          大水沟/很/难/过
主题识别    LDA
文本分类
自然语言处理中,采用词向量表示
语料库

2 独热编码
John likes to watch movies. Mary likes too.
John also likes to watch football games.

词典

{"John":1,  "likes":2, "to":3, "watch":4, "movies":5, "Mary":6, "too":7, "also":8, "football":9, "games":10}

One-hot表示

John:[1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
likes:[0, 1, 0, 0, 0, 0, 0, 0, 0, 0]
 ...
games:[0, 1, 0, 0, 0, 0, 0, 0 ,0 ,1]

词典中的每一个单词都有唯一的索引;词典中词的顺序和句子没有关联

3 Bag of Words(词袋表示)

将各词的词向量相加

John likes to watch movies. Mary likes too. [1, 2, 1, 1, 1, 1, 1, 0, 0, 0]
John also likes to watch football games. [1, 1, 1, 1, 0, 0, 0, 1, 1, 1]
4 词权重TF-IDF (Term Frequency - Inverse Document Frequency)

TF-IDF用来评价该词的权重
词t的TF: TF(t)=(t)(t) T F ( t ) = ( 词 t 在 当 前 文 档 出 现 的 次 数 ) ( t 在 全 部 文 档 中 出 现 的 次 数 )
词t的IDF: IDF(t)=ln(t+1) I D F ( t ) = l n ( 总 文 档 数 含 t 的 文 档 数 + 1 )
TFIDF=TF(t)IDF(t) T F − I D F 权 重 = T F ( t ) ∗ I D F ( t )

John likes to watch movies. Mary likes too. [0.693, 1.386, 0.693, 1.099, 0.693, 0.693, 0, 0, 0, 0]

缺点:词在文档中的顺序没有被考虑
无法捕捉到:“小王喜欢小红”和“小红喜欢小王”之间的区别

5 N-gram

用来描述一句话 (词组合) 出现的概率。其假定一个词的出现,只与前面 n n 个词有关。

P(w1,...,wm)=i=1mP(wi|w1,...,wi1)

为2-gram建立的索引

"John likes": 1
"likes to"2
...
"football games"10
John likes to watch movies. Mary likes too. [1, 1, 1, 1, 1, 1, 1, 0, 0, 0]
John also likes to watch football games. [0, 1, 1, 0, 0, 0, 1, 1, 1, 1]

优点:考虑了词的顺序
缺点:词表的膨胀
预测Mary likes to 的概率:
Unigram/1-gram 一元模型

P(Marylikestoo)=P(too|Mark,likes)P(likes|Mary)P(Mary) P ( M a r y l i k e s t o o ) = P ( t o o | M a r k , l i k e s ) ∗ P ( l i k e s | M a r y ) ∗ P ( M a r y )
=P(too)P(likes)P(Mary) = P ( t o o ) ∗ P ( l i k e s ) ∗ P ( M a r y )

Bi-gram/2-gram二元模型
P(Marylikestoo)=P(too|Mark,likes)P(likes|Mary)P(Mary) P ( M a r y l i k e s t o o ) = P ( t o o | M a r k , l i k e s ) ∗ P ( l i k e s | M a r y ) ∗ P ( M a r y )
=P(too|likes)P(likes|Marry)P(Mary) = P ( t o o | l i k e s ) ∗ P ( l i k e s | M a r r y ) ∗ P ( M a r y )

6.共现矩阵

局域窗中的共现矩阵可以挖掘语法和语义信息

I like deep learning.
I like NLP.
I enjoy flying.

window length设为1(一般设为5 ~ 10)

countsIlikeenjoydeeplearningNLPflying.
I02100000
like20010100
enjoy10000010
deep01001000
learning00010001
NLP01000001
flying00100001
.00001110

共现矩阵的行和列作为词向量。
向量维度随着词典大小线性增长(高维并稀疏)。
解决方法:降维和矩阵压缩。如:SVD降维

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值