学习目录阿力阿哩哩:深度学习 | 学习目录zhuanlan.zhihu.com
前面我们介绍了:阿力阿哩哩:一文掌握CNN卷积神经网络zhuanlan.zhihu.com阿力阿哩哩:代码实践|全连接神经网络与文本分类zhuanlan.zhihu.com
4.7代码实践
4.7.3 CNN卷积神经网络之文本分类
笔者在4.7.2节介绍了神经网络文本分类的招聘信息分类(代码实践|全连接神经网络与文本分类),并介绍了文本在进入神经网络前的预处理工作。今天笔者给大家分享的是CNN卷积神经网络对招聘数据的分类,也同样要对文本进行预处理,所以还没了解文本预处理的读者,可以翻阅4.7.2节。
同样地,我们的招聘数据集也是和上一小节一样。
1. 实验流程
(1) 加载数据
(2) 数据上标签
(3) 中文分词
(4) 提取文本关键词
(5) 建立token字典
(6) 使用token字典将“文字”转化为“数字列表”
(7) 截长补短让所有“数字列表”长度都是50 :保证每个文本都是同样的长度,避免不必要的错误。
(8) Embedding层将“数字列表”转化为"向量列表"
(9) 将向量列表送入深度学习模型(CNN卷积神经网络)进行训练
(10)保存模型与模型可视化
(11)模型的预测功能
(12)训练过程可视化
2. 代码
1. # chapter4/4_7_3_CNN_text.ipynb
2. import pandas as pd
3. import jieba
4. import jieba.analyse as analyse
5. from keras.preprocessing.text import Tokenizer
6. from keras.preprocessing import sequence
7. from keras.models import Sequential
8. from keras.layers import Dense, Dropout, Activation, Flatten, MaxPool1D, Conv1D
9. from keras.layers.embeddings import Embedding
10. from keras.utils import mult