自然语言处理-英文文本 python

最新推荐文章于 2022-05-14 16:10:10 发布

希望每天都幸运li

最新推荐文章于 2022-05-14 16:10:10 发布

阅读量1.9k

点赞数 2

分类专栏： python 文章标签：自然语言处理 python

本文链接：https://blog.csdn.net/ruijieli_/article/details/107811575

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

关于自然语言处理的资料已经非常多，对于英文文本的处理步骤和方式在这里给大家整理一下：
一般来说英文文本处理有几以下几个步骤：
（1）分词操作：
分词应该是所有自然语言处理首先都需要做的，那么分词有以下几种方法供给大家参考
1.TextBlob包中提供的分词操作用法：text.word,其中text为文本名称
2.NLTK包中的分词方法：word_tokenize(text)
3.split方法做分词：因为英文单词本来就有空格，所以直接使用空格作为词语之间的间隔判断：text.split()

(2)小写转化：
word.lower()

(3)去除停词：
去除停词的方法通常有几种：
1.使用nltk包中自带的停词表
nltk.download(‘stopwords’) 本语句只需要执行一次，另外关于下载出错的问题本博主有在之前文章中提及，大家可以看看。
stop_words = stopwords.words(‘english’)这样就加载了停词库中的英文停词表。
2.使用自己创建的停词表：
看了一下nltk默认的停词表只有178个单词左右，可能不满足某些项目需求。使用自带英文停词表可以有效地帮助减少停词。
stopwords = [word.strip().lower() for word in open(“stoplist.txt”)]

(4)词性标注操作：
这里可以使用两种方法：
1.nltk包自带的词性标注：nltk.pos_tag(text)
2.Spacy包带的词性标注

(5)词性还原：
1.nltk包
2.Spacy包

（6）检查文本中的词频：
1.在分词之后使用collection包带的Counter函数 word_counts = collections.Counter(words)
2.在分词之后使用nltk包带的工具：FreqDist(words)
(7)textblob包
这个包有很多功能：名词短语提取，词性标记，情绪分析，分类，大家感兴趣可以自己去查找一下，该包是基于nltk上建立的，有更多的功能可用，仅供大家参考。

希望每天都幸运li

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理-英文文本 python

关于自然语言处理的资料已经非常多，对于英文文本的处理步骤和方式在这里给大家整理一下：一般来说英文文本处理有几以下几个步骤：（1）分词操作：分词应该是所有自然语言处理首先都需要做的，那么分词有以下几种方法供给大家参考1.TextBlob包中提供的分词操作用法：text.word,其中text为文本名称2.NLTK包中的分词方法：word_tokenize(text)3.split方法做分词：因为英文单词本来就有空格，所以直接使用空格作为词语之间的间隔判断：text.split()(2)小写转化：
复制链接

扫一扫

专栏目录