python文本预处理函数_python文本预处理 步骤、使用工具及示例

示例:使用NLYK提取茎

实现代码:

输出:

单词形式恢复()

词形还原的目的,如词干过程,是将不同形式的词还原为一个共同的基本形式。与词干提取过程相反,词形恢复并不是简单地切断或变形单词,而是利用词汇知识库获得正确的词形。

目前常用的形态复原工具库有:NLTK(),基于内存的浅层解析器(MBSP),文本工程通用架构(GATE),IllinoisLemmatizer,DKProCore。

举例:用NLYK实现单词形态还原

实现代码:

输出:

词性标注

词性标注旨在根据单词的定义和上下文含义,为给定文本中的每个单词(如名词、动词、形容词和其他单词)分配一个词性。目前有很多包含POS标记的工具,包括NLTK、spaCy、TextBlob、Pattern、StanfordCoreNLP、基于内存的浅层分析器(MBSP)、ApacheOpenNLP、ApacheLucene、文本工程通用架构(GATE)、FreeLing、IllinoisPartofSpeechTagger、DKProCore。

示例:使用文本块实现词性标注

实现代码:

输出:

分词(浅析)

词阻塞是一种识别句子成分(如名词、动词、形容词等)的自然语言过程。)并将其链接到语法意义不连续的高阶单位(如名词组或短语、动词组等)。).常用的分词工具有:NLTK、TreeTaggerchunker、ApacheOpenNLP、文本工程通用架构(GATE)、FreeLing。

举例:用NLYK实现挡字

第一步是确定每个单词的词性。

实现代码:

输出:

第二部分是把单词分块

实现代码:

输出:

也可以使用result.draw()函数绘制句子树结构图,如下图所示。

姓名识别认知(姓名识别)

命名实体识别(NER)旨在从文本中找到命名实体,并将它们分类为预定义的类别(人、地点、组织、时间等)。).

常见的命名实体识别工具如下表所示,包括:NLTK、spaCy、文本工程通用架构(gate)-Annie、ApacheOpenNLP、StanfordCoreNLP、DKPro core、MITIE、WatsonNLP、TextRazor、FreeLing等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值