Python--NLP自然语言处理常用API

本文总结了Python自然语言处理的关键点,包括nltk库的文本提取、提干和词性还原,词袋模型的概念,TF-IDF的重要性,以及NLP的三大应用场景——文本分类(如新闻类型和性别识别)、情感分析(如电影评价)和主题提取(如文本主题)。通过API介绍和案例分析,深入理解NLP在实际中的应用。
摘要由CSDN通过智能技术生成

NLP自然语言处理的常用总结

nltk自然语言处理工具(natural language toolkits)

1. 文本提取

API:

# 导入模块
import nltk.tokenize as tk
# 提取句子
sent_list = tk.sent_tokenize('')
# 提取单词
word_list = tk.word_tokenize('')_

# 提取单词对象
punctTokenizer = tk.WordPunctTokenizer()
word_list = punctTokenizer.tokenize('')

2. 提干

API:

import nltk.stem.porter as pt
import nltk.stem.Lancaster as lc
import nltk.stem.snowball as sb

# 波特词干提取器,偏宽松
pt_stemmer = pt.PorterStemmer()
# 朗卡斯特词干提取器,偏严格
lc_stemmer = lc.LancasterStemmer()
# 斯诺博词干提取器,中庸
sb_stemmer = sb.SnowballStemmer()
# 实现提取过程
r = pt_stemmer.stem('playing')

3. 词性还原

API:

import nltk.stem as ns
# 词性还原器对象
lemmatizer = ns.WordNetLemmatizer()
n = lemmatizer.lemmatize('',pos = 'n')
v = lemmatizer.lemmatize('',pos = 'v')

词袋模型

基本思想:单词出现的次数很大程度上决定了该句话的意思。讲一句话作为样本,这句话中的每个单词作为特征,单词在句子中出现的次数作为特征值构建的数学模型就叫做词袋模型。
API:

import sklearn.feature_extraction.text as ft

# 构建磁带模型对象
cv = ft.CountVectorizer()
# 训练模型
bow = cv.fit_transform(sentence).toarray() # 不toarray的结果为稀疏矩阵
print(bow)
# 获取特征名
words = cv.get_feature_names()

TF-IDF词频-逆文档频率

(term frequency–inverse document frequency)
思想:值越大,贡献越大;根据贡献力度,构建学习模型
API:

import sklearn.feature_extraciton.text as ft
# 获取一个词袋模型
cv = ft.CountVetorizer()
bow = cv.fit_transform(sentence).toarray()
# 获取tf-idf模型训练器
tt = ft.TfidfTransformer()
tfidf = tt.fit_transform(bow).toarray()

# 最后结果为    有几句话就有几行,len(cv.get_feature_names)列的数组
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值