中文文本基本任务与处理
本文所用资料链接: https://pan.baidu.com/s/1KC1ya38fml1mlXYGBF0mIw 提取码: r76u
1.分词
对于中文和日文这样的特殊亚洲语系文本而言,字和字之间是紧密相连的,单纯从文本形态上无法区分具备独立含义的词(拉丁语系纯天然由空格分隔不同的word),而不同的词以不同的方式排布,可以表达不同的内容和情感,因此在很多中文任务中,我们需要做的第一个处理叫做分词。
这是一个非常基础的功能,但是会较大程度影响下游任务(机器翻译、情感分析、文本理解)的效果。
目前主流的分词方法主要是基于词典匹配的分词方法(正向最大匹配法、逆向最大匹配法和双向匹配分词法等)和基于统计的分词方法(HMM、CRF、和深度学习);主流的分词工具库包括 中科院计算所NLPIR、哈工大LTP、清华大学THULAC、Hanlp分词器、Python jieba工具库等。
关于分词方法和工具库更多内容可以参考知乎讨论有哪些比较好的中文分词方案
2.停用词与N-gram
在自然语言处理的很多任务中,我们处理的主体“文本”中有一些功能词经常出现,然而对于最后的任务目标并没有帮助,甚至会对统计方法带来一些干扰,我们把这类词叫做停用词,通常我们会用一个停用词表把它们过滤出来。比如英语当中的定冠词/不定冠词(a,an,the等)。
中文当中常用到的停用词词表可以参见中文常用停用词表
关于机器学习中停用词的产出与收集方法,大家可以参见知乎讨论机器学习中如何收集停用词
N-gram
N-gram在中文中叫做n元语法,指文本中连续出现的n个语词。n元语法模型是基于(n-1)阶马尔可夫链的一种概率语言模型,通过n个语词出现的概率来推断语句的结构。关于语言模型的更多内容,我们在后续的课程会详细提到。
大家可以简单理解成N-gram是N个词条组成的n元组,也可以阅读自然语言处理中N-Gram模型介绍了解更多内容。
3.更多任务(词性标注、依赖分析、NER、关键词抽取)
词性标注
词性(part-of-speech)是词汇基本的语法属性,通常也称为词性。
词性标注(part-of-speech tagging),又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。
词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。
代码 | 名称 | 说明 | 举例 |
---|---|---|---|
a | 形容词 | 取英语形容词adjective的第1个字母 | 最/d 大/a 的/u |
ad | 副形词 | 直接作状语的形容词.形容词代码a和副词代码d并在一起 | 一定/d 能够/v 顺利/ad 实现/v 。/w |
ag | 形语素 | 形容词性语素。形容词代码为a,语素代码g前面置以a | 喜/v 煞/ag 人/n |
an | 名形词 | 具有名词功能的形容词。形容词代码a和名词代码n并在一起 | 人民/n 的/u 根本/a 利益/n 和/c 国家/n 的/u 安稳/an 。/w |
b | 区别词 | 取汉字“别”的声母 | 副/b 书记/n 王/nr 思齐/nr |
c | 连词 | 取英语连词conjunction的第1个字母 | 全军/n 和/c 武警/n 先进/a 典型/n 代表/n |
d | 副词 | 取adverb的第2个字母,因其第1个字母已用于形容词 | 两侧/f 台柱/n 上/ 分别/d 雄踞/v 着/u |
dg | 副语素 | 副词性语素。副词代码为d,语素代码g前面置以d | 用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 节目/n 。/w |
e | 叹词 | 取英语叹词exclamation的第1个字母 | 嗬/e !/w |
f | 方位词 | 取汉字“方” 的声母 | 从/p 一/m 大/a 堆/q 档案/n 中/f 发现/v 了/u |
g | 语素 | 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母 | 例如dg 或ag |
h | 前接成分 | 取英语head的第1个字母 | 目前/t 各种/r 非/h 合作制/n 的/u 农产品/n |