Python--NLP自然语言处理常用API

最新推荐文章于 2024-07-31 02:51:00 发布

ghcjasongo

最新推荐文章于 2024-07-31 02:51:00 发布

阅读量1.6k

点赞数 1

分类专栏：学习笔记汇总文章标签： NLP Python

本文链接：https://blog.csdn.net/a18612039484/article/details/100131043

版权

本文总结了Python自然语言处理的关键点，包括nltk库的文本提取、提干和词性还原，词袋模型的概念，TF-IDF的重要性，以及NLP的三大应用场景——文本分类（如新闻类型和性别识别）、情感分析（如电影评价）和主题提取（如文本主题）。通过API介绍和案例分析，深入理解NLP在实际中的应用。

摘要由CSDN通过智能技术生成

NLP自然语言处理的常用总结

nltk自然语言处理工具（natural language toolkits）

1. 文本提取

API:

# 导入模块
import nltk.tokenize as tk
# 提取句子
sent_list = tk.sent_tokenize('')
# 提取单词
word_list = tk.word_tokenize('')_

# 提取单词对象
punctTokenizer = tk.WordPunctTokenizer()
word_list = punctTokenizer.tokenize('')

2. 提干

API：

import nltk.stem.porter as pt
import nltk.stem.Lancaster as lc
import nltk.stem.snowball as sb

# 波特词干提取器，偏宽松
pt_stemmer = pt.PorterStemmer()
# 朗卡斯特词干提取器，偏严格
lc_stemmer = lc.LancasterStemmer()
# 斯诺博词干提取器，中庸
sb_stemmer = sb.SnowballStemmer()
# 实现提取过程
r = pt_stemmer.stem('playing')

3. 词性还原

API:

import nltk.stem as ns
# 词性还原器对象
lemmatizer = ns.WordNetLemmatizer()
n = lemmatizer.lemmatize('',pos = 'n')
v = lemmatizer.lemmatize('',pos = 'v')

词袋模型

基本思想：单词出现的次数很大程度上决定了该句话的意思。讲一句话作为样本，这句话中的每个单词作为特征，单词在句子中出现的次数作为特征值构建的数学模型就叫做词袋模型。
API：

import sklearn.feature_extraction.text as ft

# 构建磁带模型对象
cv = ft.CountVectorizer()
# 训练模型
bow = cv.fit_transform(sentence).toarray() # 不toarray的结果为稀疏矩阵
print(bow)
# 获取特征名
words = cv.get_feature_names()

TF-IDF词频-逆文档频率

（term frequency–inverse document frequency）
思想：值越大，贡献越大；根据贡献力度，构建学习模型
API：

import sklearn.feature_extraciton.text as ft
# 获取一个词袋模型
cv = ft.CountVetorizer()
bow = cv.fit_transform(sentence).toarray()
# 获取tf-idf模型训练器
tt = ft.TfidfTransformer()
tfidf = tt.fit_transform(bow).toarray()

# 最后结果为    有几句话就有几行，len(cv.get_feature_names)列的数组