Implementing a CNN for Text Classification in TensorFlow(用tensorflow实现CNN文本分类) 阅读笔记

本文是关于使用TensorFlow实现CNN进行文本分类的学习笔记,包括数据预处理、模型构建和训练过程。通过构建TextCNN模型,利用电影评论数据进行情感分析,探讨了避免过拟合的策略。
摘要由CSDN通过智能技术生成

    目前正在学习把深度学习应用到NLP,主要是看些论文和博客,同时做些笔记方便理解,还没入门很多东西还不懂,一知半解。贴出来的原因,一是方便自己查看,二是希望大家指点一下,尽快入门。

    原paper:Convolutional Neural Networks for Sentence Classification

    源代码:https://github.com/dennybritz/cnn-text-classification-tf

    原博客:http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/


    1. 数据和预处理

      1. 数据集:电影评论数据——Movie Review data from Rotten Tomatoes,包含5331个积极的评论和5331个消极评论,同时包含一个20k的词表

      2. 注意:数据集过小容易过拟合,可以进行10交叉验证

      3. 步骤:

        1. 加载两类数据

        2. 文本数据清洗

        3. 把每个句子填充到最大的句子长度,填充字符是<PAD>,使得每个句子都包含59个单词。相同的长度有利于进行高效的批处理

        4. 根据所有单词的词表,建立一个索引,用一个整数代表一个词,则每个句子由一个整数向量表示

    2. 模型

      1. 第一层把词嵌入到低纬向量;第二层用多个不同大小的filter进行卷积;第三层用max-pool把第二层多个filter的结果转换成一个长的特

    评论 7
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值