利用python将文本进行分类_在Python中使用文本分析对业务进行分类

DylanLiew

于 2021-02-05 06:29:08 发布

阅读量401

点赞数

文章标签：利用python将文本进行分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34471838/article/details/113694187

版权

这里有一种使用sklearn的方法。在过去的例子中，我会使用LabelBinarizer()，但它不能在管道中工作，因为它不再接受X，y作为输入。在

如果您是新手，管道可能会有点混乱，但实际上它们只是在传递给分类器之前按步骤处理数据。在这里，我将X转换成单词和字符标记的ngram“矩阵”(一个表)，然后将其传递给分类器。在import numpy as np

from sklearn.linear_model import LogisticRegression

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.pipeline import Pipeline, FeatureUnion

X = np.array([['AI'],

['Artificial Intelligence'],

['VR'],

['Virtual Reality'],

['Mobile application'],

['Desktop softwares']])

y = np.array(['Artificial Intelligence', 'Artificial Intelligence',

'Virtual Reality', 'Virtual Reality', 'Application', 'Application'])

pipeline = Pipeline(steps=[

('union', FeatureUnion([

('word_vec', CountVectorizer(binary=True, analyzer='word', ngram_range=(1,2))),

('char_vec', CountVectorizer(analyzer='char', ngram_range=(2,5)))

])),

('lreg', LogisticRegression())

])

pipeline.fit(X.ravel(), y)

print(pipeline.predict(['web application', 'web app', 'dog', 'super intelligence']))

预测：

^{pr2}$

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。