google QA 简单的文本分类尝试

最新推荐文章于 2024-08-14 18:20:49 发布

allen_zhe0316

最新推荐文章于 2024-08-14 18:20:49 发布

阅读量359

点赞数

文章标签：深度学习自然语言处理人工智能

本文链接：https://blog.csdn.net/m0_61913233/article/details/130366692

版权

文章介绍了使用RNN进行文本分类的方法，通过Keras构建了一个包含Embedding、SimpleRNN、GlobalMaxPool1D和Dense层的模型。数据预处理采用了词频统计和GloVe嵌入，模型训练在GPU上比CPU速度快。作者还讨论了在模型中直接应用GloVe参数的局限性。

摘要由CSDN通过智能技术生成

先用RNN来试试：

关于RNN的一些点：

E(error)当然只和当前的yhat是相关的

所以对某一层的w进行更新时，更新如下：

在RNN的架构上搭建一个分类器模型，输入主要为question body，输出为category。

首先需要准备好我们的数据，category用label_enconder很快就能制作好离散的数据标签

在我们比较原始的做法里，似乎glove都是奢侈的做法里，okfine，那可能就是比onehot稍微高级一点的，keras自带的编码器了。如下：

很简单，统计的是词频最高的5000个词，赋予编码。

再通过

tokenizer.texts_to_sequences 来形成句子向量，最后padding匹配成相同的输入维度也就是对应模型的输入维度：1000

模型代码如下：

inp=Input(shape=(maxlen,))
z=Embedding(max_features,embed_size,input_length=maxlen)(inp)
z=Bidirectional(SimpleRNN(60,return_sequences='True'))(z)
z=GlobalMaxPool1D()(z)
z=Dense(16,activation='relu')(z)
z=Dense(5,activation='softmax')(z)
model=Model(inputs=inp,outputs=z)
model.compile(loss='sparse_categorical_crossentropy',optimizer='adam',metrics=['accuracy'])
model.summary()

就不详细记录配置环境和调试的过程了... nvidia-smi l5

还特意对比了一下cpu大概是100+s一个epoch 3-4s一个step

gpu的速度还是比cpu快了不少的

下面将embedding层加入glove的参数 ps：感觉这么做还是不严谨的，可解释性几乎为0

allen_zhe0316

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
google QA 简单的文本分类尝试

tokenizer.texts_to_sequences 来形成句子向量，最后padding匹配成相同的输入维度也就是对应模型的输入维度：1000。在我们比较原始的做法里，似乎glove都是奢侈的做法里，okfine，那可能就是比onehot稍微高级一点的，keras自带的编码器了。下面将embedding层加入glove的参数 ps：感觉这么做还是不严谨的，可解释性几乎为0。很简单，统计的是词频最高的5000个词，赋予编码。gpu的速度还是比cpu快了不少的。
复制链接

扫一扫