基于python的语料库数据处理电子版_基于 Python 自然语言处理工具包在语料库研究中的运用...

weixin_39517902

于 2020-11-24 01:14:59 发布

阅读量265

点赞数

文章标签：基于python的语料库数据处理电子版

本文探讨了Python的NLTK工具包在语料库研究中的优势，指出其在数据处理、词形归并、句法分析等方面的功能，对比了传统工具如AntConc和PowerGREP。通过实例分析《艾玛》小说，展示了NLTK如何用于文本预处理和分析，强调了NLTK在语料库建设与研究中的重要作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于

Python

自然语言处理工具包在语料库研究中的运用

刘

旭

【摘

要】

摘要：国内当前以语料库为基础的研究，在研究工具方面，多以

AntConc

、

PowerGREP

为主，使用

Python

语言

NLTK

包进行数据处理分析

的研究较少，限于软件自身设计，不能灵活地对研究方法提供支持。在研究中

使用

Python

语言的

NLTK

处理包，使数据有了统一标准，避免了各类文字处

理转换的麻烦，同时也弥补了

Range

等工具在句法分析、图形绘制、正则表达

式检索等方面的缺憾。针对语料库研究的中文本分词、词形归并、文本检索统

计等主要环节，简要介绍

Python

语言的

NLTK

自然语言处理包在语料库研究

中的运用，并以古腾堡语料库中的简·奥斯丁小说

《艾玛》为例，说明如何运用

该自然语言处理包对语料进行加工处理。

【期刊名称】

昆明冶金高等专科学校学报

【年

(

卷

),

期】

2015(000)005

【总页数】

6

【关键词】

Python

；

NLTK

工具包；语料库研究

不论是语料库的建设，还是语料库研究的数据处理，都需要对语料库进行加工

与处理。基于计算机编程语言

Python

的

NLTK

工具包是一个可用于对自然语

言进行清洁、赋码、检索、语法及语义分析等处理的工具包，与常见的

Range

，

PowerGREP

，

AntConc

等语料库软件相比，

NLTK

工具包不仅具备上述工具中

常见的检索功能，还具备文本清洁、词形归并、词性赋码、语法分析等多种功

能。其中，检索功能可用于词汇搭配研究、类联接研究；文本清洁、词形归并

可用于语料库建库对数据的处理。该处理包的特色在于能让研究者在一个环境

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。