统计自然语言处理基础(一)

本文介绍了统计自然语言处理的基础,强调了统计方法在解决语言问题中的作用。内容涵盖语言的随机性、概率论在理解语言中的重要性、语料库对计算机硬件的需求,以及搭配的统计分析,包括频率、方差、假设检验和互信息等概念。
摘要由CSDN通过智能技术生成

基础认知

语言学的目的是为了能够描述和解释我们周围的语言现象。
人们对在自然语言处理中使用统计方法抱有的热情,在很大程度上是 因为他们看到了统计方法在解决实际问题时的前景,而这些问题正是传统方法无法解决的。大家对语言使用形式的频率感兴趣是有清晰的,毋庸置疑的科学原因的。(统计学是研究语言的一种方法)
语言和认知 是随机现象:把概率作为理解语言的一种科学方法的最基本论点认为,人类的认知是随机的,因此语言也是随机的,因为它是认知的一个完整部分。
在语言中,大部分句子都是二值可分的(合乎语法、不合乎语法),而且在大多数情况下,单词只使用一个词性,没有词性混合的现象。但是如果语言和认知作为一个整体,最好的解释就是概率,那么解释语言理论的中心内容就必须是概率论。

数学基础

  • 概率论基础
  • 信息论基础

语料库—计算机

统计自然语言处理方法不仅需要大量的空间来存储语料,而且经常需要从语料库中收集大量的统计信息,所以要求计算机有比较快的存取速度。这就需要一台硬盘足够大,内存足够多的计算机。

搭配

“搭配”是由两个或两个以上的词所组成的语言表示,相当于说某些事情的习惯方式。

1.频率
在一个文本语料库中寻找搭配的最简单的方法就是计数。如果两个词在一起出现了很多次,那么这就是一个证据&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值