文本分类的一些实践(三)

基于多个句子的分类

除了一般的对于单句的文本分类的场景,还有一些场景句子和上下文的标签是相关的。如多伦对话中的话题、可能几句句子表示同一个话题;文章的段落结构,简历的段落结构等;其中每一行文本都不是孤立的,于是想尝试对词的NER做一下扩展,变成基于句子的NER,来学习句子间的上下文关系。

模型构建的思路

首先将每一行的词表示成句字的编码,然后把句子当成词构建LSTM + CRF的NER模型。当然在构建时可以进行一些小的变形,如增加BiLSTM,Attention等
当然本人也尝试了用CRF++工具对句子序列标注的方案。

doc-lable

        embedding_layer = Embedding(self.vocab_size,
                                    self.embed_dim,
                                    input_length=self.sentence_len_max)

        sentence_input = Input(shape=(self.sentence_len_max,), dtype='int32')
        embedded_sequences = embedding_layer(sentence_input)
        l_lstm = Bidirectional(LSTM(100, return_sequences=True))(embedded_sequences)
        l_dense = TimeDistributed(Dense(200))(l_lstm)
        l_att = AttentionLayer()(l_dense) 
        sentEncoder = Model(sentence_input, l_att)

        review_input = Input(shape=(self.doc_sent_len_max, self.sentence_len_max), dtype='int32')
        review_encoder = TimeDistributed(sentEncoder)(review_input)

        l_lstm_sent = Bidirectional(LSTM(100, return_sequences=True))(review_encoder)
        l_dense_sent = TimeDistributed(Dense(200))(l_lstm_sent)

        preds = Dense(units=self.num_class, activation='softmax')(l_dense_sent)
        crf = CRF(self.num_class,sparse_target=False)
        crf_out = crf(preds)
        model = Model(review_input, crf_out)
        model.compile(optimizer="rmsprop", loss=crf.loss_function, metrics=[crf.accuracy])
        print(model.summary())
        return model

实验结果:

在本次实验中并没有取得比单行文本更好的效果,可能因素有如下:

  1. 样本太少,不足以支撑复杂模型。

  2. 在句子的表示方面,和单句的表示方式差异不大,在句子表示结果不理想的情况下CRF不能学习到更好的结果。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

花咪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值