统计自然语言处理基础学习笔记(2)——语料库

本文介绍了统计自然语言处理中语料库的重要性和处理需求,包括计算机资源、语料库的选择与构建,以及软件工具。强调了语料库的典型性和平衡性,并讨论了文本处理的低级格式问题、标记化、词法分析和句子分隔等步骤。数据标注方面,提到了SGML标注形式和知名的Brown、Penn树库标注集。
摘要由CSDN通过智能技术生成

          统计自然语言处理的主要需求包括计算机、语料库和软件。

          基础知识:

         1、计算机: 文本语料库通常都比较大,处理大量的文本需要相当多的计算资源。在早期的处理中,这是限制语料库运用的主要原因。统计自然语言处理方法不仅需要大量的空间来存储语料,而且经常需要从语料中收集大量的统计信息,所以要求计算机有比较快的存取速度。因此需要一台硬盘足够大,内存足够多的计算机。

          2、语料库:一个语料库时按照某种标准收集的特殊文本材料。在文本分类中,一个系统的性能会由于时间关系极度恶化,因为某一时刻抽取出来用于训练的样本经过一年或者两年后就失去了原本的代表性。语料库是不是人们感兴趣的典型样本是这里的主要问题。如果我们从一个样本中得出的结论同样适用于一般对象,就可以说这个样本是典型的。这里还需要提到一个平衡语料库的概念。平衡语料库是按照事先确定好的某种重要标准,把每个子类的文本按照一定比例收集到语料库。在统计自然语言处理中,通常把感兴趣的某个领域的大量数据收集起来作为语料库,不管这些数据是怎么构造的。

          3、软件:真正需要的软件就是简单的文本编辑器和某种编程语言的编译器或者解释器。除此之外,还会可能经常用到其他工具软件,例如在语料库中进行搜索的软件。

          文本:

          文本通常有两种形式:生文本和标注文本。标注是把某个分类代码插入到一个计算机文件中,这中分类代码通常并不是文件的组成部分,但是通过这些分类代码,我们可以了解文件的结构或格式信息。人类语言中的许多yuo使得文本自动处理相当困难,即使是低水平的自动处理也很困难。

        

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值