keras深度学习框架进行文本分类

最新推荐文章于 2025-04-28 20:48:39 发布

pyswt

最新推荐文章于 2025-04-28 20:48:39 发布

阅读量1.1k

点赞数

分类专栏：深度学习文章标签： python 深度学习文本分类

本文链接：https://blog.csdn.net/python3_i_know/article/details/93895193

版权

本文分享了使用keras深度学习框架进行文本分类的项目经验，包括数据加载、网络配置、模型训练、参数选择、损失与准确率可视化、模型保存与评估。在应用模型时遇到新数据词向量化导致分类效果下降的问题，提出了词向量化差异性对模型应用的影响，并寻求解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

近期接手的一个项目就是深度学习文本分类，我选用的是keras深度学习框架，下面把处理过程给大家分享一下，首先是要加载数据，我的数据是在文档里面，首先读取csv文件选取字段。

def laod_csv():
    print('正在加载数据...')
    data = pd.read_csv(r'data\3_9.csv',encoding='gbk')
    target_list = []
    def func(f):
        if f['小类'].values[0] not in target_list:
            target_list.append(f['小类'].values[0])
        f['数字小类类别'] = [target_list.index(f['小类'].values[0])] * len(f['小类'].values)
        return f

    data1 = data.groupby(['小类']).apply(func)
    data1.sort_values(by='数字小类类别', inplace=True)
    label = data1['数字小类类别'].values
    target = []
    for item in data1['反映内容'].values:
        target.append(item.strip())

	return target,label,target_list

之后配置网络结构

def build_netword(dict, catalogue=BINARY_FLAG, embedding_size=50, max_sequence_length=30):
	model = krs.Sequential()
    model.add(krs.layers.Embedding(len(dict.items()), embedding_size, input_length=max_sequence_length))
    model.add(krs.layers.LSTM(256, dropout=0.5, recurrent_dropout=0.5))   #配置神经元个数以及dropout过拟合
    model.add(krs.layers.Dense(97))         #最终类别有多少个
    model.add(krs.layers.Activation("softmax"))         #利用softmax激活函数
    model.compile(loss="categorical_crossentropy", optimizer="adam", metrics=["accuracy"])     #配置损失函数，优化器，评估标准
    
    return model

在多分类问题中我们都是用softmax激活函数，因为会对每一类都有一个预测概率，概率最大的一个即为最好的，在二分类中就用sigmoid激活函数，神经元个数也可以按照自己的模型进行调整，我最后个数为512个，越大的话拟合时间越久。
下面就是数据处理与训练：

# -*- coding: utf-8 -*-
# Created by Jinkey on 2018/1/4.


import tensorflow as tf
import jieba as jb
import numpy as np
import matplotlib.pyplot as plt
from keras.wrappers.scikit_learn import KerasClassifier
from keras.callbacks import TensorBoard
from sklearn.

最低0.47元/天解锁文章