利用tf-idf词向量和卷积神经网络做文本多分类

最新推荐文章于 2022-04-06 16:52:40 发布

hufei_neo

最新推荐文章于 2022-04-06 16:52:40 发布

阅读量2.5k

点赞数 3

分类专栏：自然语言处理文章标签： tf-idf cnn 卷积 keras

本文链接：https://blog.csdn.net/hufei_neo/article/details/91983281

版权

本文介绍如何结合tf-idf词向量和卷积神经网络（CNN）进行文本多分类任务，通过代码展示了tf-idf的计算过程，并提及了模型参数的设置。

摘要由CSDN通过智能技术生成

首先了解一下tf-idf,通过一段小代码

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
vectorizer = TfidfVectorizer()
x= vectorizer.fit_transform(corpus)

a=x.toarray()
print(type(x))
print(type(a))

输出结果：

<class 'scipy.sparse.csr.csr_matrix'>
<class 'numpy.ndarray'>

import numpy as np
import pandas as pd
import jieba
import re
np.random.seed(1337)  # for reproducibility
from keras.datasets import mnist
from keras.utils import np_utils
from keras.utils import to_categorical
from kera