python如何显示文本信息_python如何提取文本信息？

最新推荐文章于 2022-07-08 17:07:32 发布

大鹏人文

最新推荐文章于 2022-07-08 17:07:32 发布

阅读量616

点赞数

文章标签： python如何显示文本信息

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28687331/article/details/114971006

版权

1、信息提取

先用句子分段器将文档的原始文本分成句子，再用记号赋值器将每个句子进一步分成单词。其次，给每一个句子做词性标记。以nltk中的默认工具为例，将句子分段器、分词器、词性标记器连接。def ie_preprocess(document):

# nltk 默认的句子分段器

sentences = nltk.sent_tokenize(document)

# nltk默认分词器

sentences = [nltk.word_tokenize(sent) for sent in sentences]

# nltk默认词性标记

sentences = [nltk.pos_tag(sent) for sent in sentences]

2、词块划分

词块划分是实体识别的基础技术，对多个词的顺序进行划分和标记。

如Noun Phrase Chunking(名词短语词块划分)

使用正则表达式来定义一个语法，来进行名词短语词块的划分

3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是，不是确定每个单词的正确单词性标记，而是根据每个单词的单词性标记，确定正确的单词块标记。# 使用一元标注器建立一个词块划分器。根据每个词的词性标记，尝试确定正确的词块标记。

class UnigramChunker(nltk.ChunkParserI):

# constructor

def __init__(self, train_sents):

# 将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word，tag，chunk)的列表

train_data = [[(t, c) for w, t, c in nltk.chunk.tree2conlltags(sent)]

for sent in train_sents]

# 训练一元分块器

# self.tagger = nltk.UnigramTagger(train_data)

# 训练二元分块器

self.tagger = nltk.BigramTagger(train_data)

# sentence为一个已标注的句子

def parse(self, sentence):

# 提取词性标记

pos_tags = [pos for (word, pos) in sentence]

# 使用标注器为词性标记标注IOB词块

tagged_pos_tags = self.tagger.tag(pos_tags)

# 提取词块标记

chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags]

# 将词块标记与原句组合

conlltags = [(word, pos, chunktag) for ((word, pos), chunktag)

in zip(sentence, chunktags)]

# 转换成词块树

return nltk.chunk.conlltags2tree(conlltags)

以上就是python提取文本信息的方法，希望能对大家有所帮助，更多知识尽在python学习网。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。