Tensorflow使用LSTM实现中文文本分类（1）

最新推荐文章于 2023-09-10 21:58:57 发布

我是小蚂蚁

最新推荐文章于 2023-09-10 21:58:57 发布

阅读量6k

点赞数 3

分类专栏： tensorflow Tensorflow学习笔记文章标签： Tensorflow lstm 中文文本分类

本文链接：https://blog.csdn.net/missyougoon/article/details/89414953

版权

前言

使用Tensorflow，利用LSTM进行中文文本的分类。
数据集格式如下：
‘’’
体育马晓旭意外受伤让国奥警惕无奈大雨格外青睐殷家军记者傅亚雨沈阳报道来到沈阳，国奥队依然没有摆脱雨水的困扰。…
‘’’
可以看出 label：体育，接着是一个 tab，最后跟随一段文字。
目标：传入模型一段文字，预测出这段文字所属类别。

数据集下载

中文文本分类数据集下载：https://download.csdn.net/download/missyougoon/11221027

文本预处理

中文分词
词语转化为 id ，embeding
例如：词语A 转化为 id（5）
同时，将 label 转化 id
统计词频

代码演示

# -*- coding:utf-8 -*-

import sys
import os
import jieba

# 输入文件
train_file = './news_data/cnews.train.txt'
val_file = './news_data/cnews.val.txt'
test_file = './news_data/cnews.test.txt'

# 分词结果
seg_train_file = './news_data/cnews.train.seg.txt'
seg_val_file = './news_data/cnews.val.seg.txt'
seg_test_file = './news_data/cnews.test.seg.txt'


# 词语 和 label到id 的 映射
vocab_file = './news_data/cnews.vocab.txt'
category_file = './news_data/cnews.category.txt'

#print(label)


def generate_seg_file(input_file, output_seg_file):
    '''
    生成分词之后的文本数据
    :param input_file: 待分词的输入文件
    :param output_seg_file:  已经分词完毕的文本
    :return:
    '''
    with open(input_file, 'r') as f:
        lines &

最低0.47元/天解锁文章

我是小蚂蚁

关注

3
点赞
踩
39

收藏

觉得还不错? 一键收藏
14
评论
Tensorflow使用LSTM实现中文文本分类（1）

前言内容接上一篇：Tensorflow使用LSTM实现中文文本分类（一）上一篇中对训练集和测试集完成了中文分词，还要需要两个操作：将词语转化为 id按照 id 查找词语的 embeding统计词频词频过低，贡献过少的词语，就直接忽略掉。代码演示# -*- coding:utf-8 -*-'''中文分词词语转化为 id embeding matr...
复制链接

扫一扫

专栏目录