NLP:语言模型、中文自然语言处理流程、自然语言处理的任务

本文详细介绍了语言模型的演变,从专家语言模型到统计语言模型,再到神经网络语言模型,如Word2vec和Bert。讨论了语言模型的评估指标Perplexity,并概述了中文自然语言处理的流程,包括语料获取、预处理、特征工程、特征选择、模型训练及评价指标。最后,提到了自然语言处理涵盖的各种任务。
摘要由CSDN通过智能技术生成

语言模型(language model)

专家语言模型

  基于语言学专家设计的语法规则,设计语言模型。专家语言模型一直到上世纪80年代是研究的主流。例如IF…ELSE…语句,在专家语言模型中是十分常见的。

统计语言模型

  关于统计语言模型,参考吴军老师的《数学之美》中的介绍,语言模型最初用于语音识别任务,其目标就是判断一个文字序列是否符合我们的认知,例如下面一句话:

美联储主席本·伯南克昨天告诉媒体7000亿美元的救助资金将借给上百家银行、保险公司和汽车公司。

  这句话我们人类能够读懂,但是如果是下面这句话:

联主美储席本·伯诉体南将借天的救克告媒昨助资金70元亿00美给上百百百家银保行、汽车险公司公司和。

  人类就看不懂这句话什么意思,统计语言模型就是一种判断人类是否能看懂一句话的模型。我们可以这样建模统计语言模型,假定一句话 S S S是由 w 1 , w 2 … w n w_1,w_2\dots w_n w1,w2wn这n个词以特定顺序排列构成的(这里的顺序就是 w 1 , w 2 … w n w_1,w_2\dots w_n w1,w2wn出现的先后顺序):

p ( S ) = p ( w 1 , w 2 … w n ) p(S)=p(w_1,w_2\dots w_n) p(S)=p(w1,w2wn)

我们看 S S S出现的概率,例如上面第一句话出现的概率可能是 1 0 − 20 10^{-20} 1020,第二句话出现的概率是 1 0 − 70

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值