统计自然语言处理（基于语料库的工作）_基于语料库统计方法准确率-CSDN博客

本文链接：https://blog.csdn.net/continueOo/article/details/72823769

编程技巧
- 文字编码
- 收集技术信息
文本问题
数据标注
- 词性标注
概念介绍
- 相关内容

编程技巧

文字编码

采用将文字映射到数字的方法，我们把文字类型，每个类型都有一个特定的数字对应（这里类型指什么？），可以使用一个很大的哈希表来维护，如果把字数限制到65000或者更少，效率会特别高，因为用16比特的数字来保存这些数字。或者把他们当做哈希表李存储的规范形式字符串的地址。输出的时候相当方便，不需要从数字转化为文字，字符串就可以被打印出来。另外还有一些其他的结构解决方法。

收集技术信息

很多统计自然语言出来需要收集各种观察对象出现的出现次数，以此作为估计概率。如果使用一个大的数据结构如数组，这样可能需要很大的内存空间。这时比较好的方法就是首先为每个出现的对象指定一个标记，然后用程序对这些标记排序。

文本问题

低级格式问题

垃圾格式问题，在处理之前需要踢出各种各样的无法处理的数据格式，如图片、页眉等内容。

英文大小写

英文的大小写可能包含了不同的含义，所以说是否需要将其进行转化是一个有待考虑的过程。有些流派中英文会用大写进行强调。以及人名之类的大写特性。

标记化：什么算是一个词

通常，文本处理的早期工作是输入文本的切分成词次单位，可能是一个标点，一个数字或者一个词语。这个过程被称为标记化。句子里面是希望保留边界的，但是句子内部的标点是希望被保留的，因为其中可能给出了文本中的宏结构线索。现在我们考虑英文，虽说英文是一种比较好分词的语言，相比于中文他有天然的分词空格。但是仍然有一些困难，比如￥22.0、Micro$oft、:-) (表情),http://www.baidu.com. 除此之外英文还包括一些符号缩写如etc. 如果这个词出现在句末，这个.还能和句点合用。这些任然是在规范文本考虑范围之内，如今网络用语中，存在大量不规范的标点，或者随意符号的出现，使得划分变得更加困难。这里提出其他几种英文中存在的问题。
单撇号问题：I’am he’s
连字符：e-mail 26-years-old
另外还有一些单独类型需要进行单独的考虑，如网站、电话
这里写图片描述
其中还会有很多问题，在这里不赘述。

词法问题

把英文词中不同形式的词都归成一个词位是自然而然的选择。通常文献上称为词干化。换句话说就是把文中的词按照曲折变化形式（异体形式）进行归类，试图去找到曲折形式的词条或者词位。其中意味着词位水平上的消歧。信息抽取领域广泛的实验研究表明，当性能评价标准是查询平均值的时候，词干化对于经典IR系统的性能提高没有帮助。词干化总会大幅度地提高一部分的查询效率，也会降低另一部分的查询效率。原因有如下3点。
1.各种形式包含了各种信息：business->busy,operating stystem->operate。
2.词法分析把一个词次切分成几个，这样也是可以改进系统性能的。这样某些固定词性就不会因为词干化造成信息丢失了。
3.英语的词态不多。（暂时我不考虑其他小语种，忽略好了）
缺乏知识条件的自动化词干存在很大的困难，所以这个的研究也是很有意义的。

句子

确定句子边界也是对文本处理中一个很重要的部分。比较好想的就是句号、感叹号、问好。但是其中还是有一些特殊情况，先后出现过一些英文分句方法：Palmer and HeARST（1994；1997）通过前后词的词性分布使用神经元网络方法来预测，达到98%+的正确率。Reynar and Ratnaparkhi(1997)等使用最大熵系统，在句子边界预测上达到了99.25%。下图显示一种启发式分割算法，这种算法效果不错，但是需要构造者写大量代码，并且需要一定专业知识，领域相关性比较强。

这里写图片描述

数据标注

词性标注

标注词语首先需要有一个标注集，不同的标注集之间的区别很明显。部分原因是标注集的规模，另外也有标注集的关注方向和细粒度有关。展示如下：
这里写图片描述

概念介绍

启发式算法
启发式算法（heuristic algorithm)是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。启发式算法可以这样定义：一个基于直观或经验构造的算法，在可接受的花费（指计算时间和空间）下给出待解决组合优化问题每一个实例的一个可行解，该可行解与最优解的偏离程度一般不能被预计。现阶段，启发式算法以仿自然体算法为主，主要有蚁群算法、模拟退火法、神经网络等。——百度百科

树库
树库（Treebank）属于深加工语料库，是语料库语言学和自然语言处理（NLP）技术发展到相对成熟阶段的产物。宽泛而言，语言研究一直以来都离不开“语料”。但从“语料”到现代意义的“语料库”，是从二十世纪五六十年代伴随着电子计算机的应用才开始的，其发展轨迹及趋势有几个明显特点：（1）语料库规模不断扩大，类型不断多样化。（2）标注信息不断丰富。（3）应用范围不断拓宽。这些特点是跟过去半个世纪整个信息社会大环境的飞速变化和NLP技术的进步分不开的。计算机存储能力和互联网的加速发展，使得电子化的大规模的自然语言资源越来越容易获得。从上世纪六十年代起步时的百万词级规模到八九十年代的上亿词级规模，再到今天语料库的规模已不再成为人们关心语料库的重点，不难感受到这种惊人的扩容速度。与此同时，语料也从原始形态的生语料库发展到经过多级标注（annotation）的所谓熟语料库。标注的信息从一般的词语形态信息，词类信息等很快发展到了标注句法结构、句法功能、语义角色信息等等。标注词类信息的语料库跟原始语料一样仍然保持着一维串性结构，而标注了句法结构、句法功能信息的语料库则因描述了词语（以及词组）之间的层级组合关系，成为二维的树状结构（Tree Structure），因此这样的语料库就被称为树库。树库大体上可以分为两类 :  短语结构树库和依存结构树库 。 

conll格式
CONLL标注格式包含10列，分别为：
   ID   FORM    LEMMA   CPOSTAG POSTAG  FEATS   HEAD    DEPREL  PHEAD   PDEPREL
   本次评测只用到前８列，其含义分别为：
   1    ID  当前词在句子中的序号，１开始.
   2    FORM    当前词语或标点  
   3    LEMMA   当前词语（或标点）的原型或词干，在中文中，此列与FORM相同
   4    CPOSTAG 当前词语的词性（粗粒度）
   5    POSTAG  当前词语的词性（细粒度）
   6    FEATS   句法特征，在本次评测中，此列未被使用，全部以下划线代替。
   7    HEAD    当前词语的中心词
   8    DEPREL  当前词语与中心词的依存关系
   在CONLL格式中，每个词语占一行，无值列用下划线'_'代替，列的分隔符为制表符'\t'，行的分隔符为换行符'\n'；句子与句子之间用空行分隔。