基于
Python
自然语言处理工具包在语料库研究中的运用
刘
旭
【摘
要】
摘要:国内当前以语料库为基础的研究,在研究工具方面,多以
AntConc
、
PowerGREP
为主,使用
Python
语言
NLTK
包进行数据处理分析
的研究较少,限于软件自身设计,不能灵活地对研究方法提供支持。在研究中
使用
Python
语言的
NLTK
处理包,使数据有了统一标准,避免了各类文字处
理转换的麻烦,同时也弥补了
Range
等工具在句法分析、图形绘制、正则表达
式检索等方面的缺憾。针对语料库研究的中文本分词、词形归并、文本检索统
计等主要环节,简要介绍
Python
语言的
NLTK
自然语言处理包在语料库研究
中的运用,并以古腾堡语料库中的简·奥斯丁小说
《艾玛》为例,说明如何运用
该自然语言处理包对语料进行加工处理。
【期刊名称】
昆明冶金高等专科学校学报
【年
(
卷
),
期】
2015(000)005
【总页数】
6
【关键词】
Python
;
NLTK
工具包;语料库研究
不论是语料库的建设,还是语料库研究的数据处理,都需要对语料库进行加工
与处理。基于计算机编程语言
Python
的
NLTK
工具包是一个可用于对自然语
言进行清洁、赋码、检索、语法及语义分析等处理的工具包,与常见的
Range
,
PowerGREP
,
AntConc
等语料库软件相比,
NLTK
工具包不仅具备上述工具中
常见的检索功能,还具备文本清洁、词形归并、词性赋码、语法分析等多种功
能。其中,检索功能可用于词汇搭配研究、类联接研究;文本清洁、词形归并
可用于语料库建库对数据的处理。该处理包的特色在于能让研究者在一个环境