HFT-CNN:层级多标签分类,让你的模型多学习几次

本文同步发布知乎:HFT-CNN:层级多标签分类,让你的模型多学习几次知乎主页lynne阿黎请大家不吝关注~

背景

长文本由于自身的特点和信息量,一段文本会描述一个特定的主题。短文本由于其自身长度的原因是缺少这种特征的。一般对于短文本的处理会借鉴上下文的语料或者同义词来扩充短文本的含义。但是由于文本的领域相关性,上下文的语料和同义词的分布未必和原始语料一致。由于以上原因短文本分类一直受到人们的关注。

在深度学习领域,对于短文本分类CNN是一种常见的方法,但是这种方法通常需要大规模的语料。文中认为短文本的多标签分类任务所面临的的问题主要是由多标签带来的数据稀疏的问题。在多标签分类中,我们会遇到标签是平行和具有层级结构的情况,例如我们看新闻的时候有生活类,科技类,娱乐类,而娱乐类又会分为电影频道,电视剧频道等等。对于标签有层级关系的问题,文中提出了Hierarchical CNN结构。

模型结构

1. CNN结构

文中文本分类的CNN模型类似于Text-CNN,输入是短文本sentence,sentence由词向量拼接而成,文中使用的是fasttext,接着使用卷积核为w的卷积层提取sentence的特征,然后添加max-pooling层,将这些池化层的的结果拼接然后经过全连接层和dropout得到上层标签[A,B,...]的概率,loss采用交叉熵。这是一个非常经典的CNN结构。

2. Hierarchical结构

对于下层标签的预测文中的思路是在上层标签的预测中模型已经学到了通用的特征,但是深层layer应该去学习原始数据集中比较详细的信息。因此文中对embedding和卷积层参数保持不变,在这个基础上进行微调学习,这一步标签也由[A,B]变为[A1,A2,B1,B2]。

对于最终文本分

  • 4
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
d0e23557.chunk.js:1的错误消息显示了一个websocket连接到了'ws://ws.hft.jajabjbj.top/?acces。这个错误消息指出了在连接过程中出现了问题。现在让我来解释一下可能导致这个问题的原因。 首先,错误消息中的URL 'ws://ws.hft.jajabjbj.top/?acces' 中似乎缺少了一个参数。正常的websocket URL应该包括一个具有特定含义的参数,例如'ws://ws.hft.jajabjbj.top/?access_token=xxxx'。在这个错误消息中,'acces'这个参数可能没有正确设置。你可以稍后尝试使用正确的URL格式,确保URL中的参数和值都是正确的。 其次,这个错误消息还可能是由于网络问题导致的。websocket是一种基于TCP的网络协议,它依赖于一个稳定的网络连接。如果你的网络连接不稳定或遇到了丢包、延迟等问题,就可能导致websocket连接失败。你可以尝试检查你的网络连接是否正常,或者尝试连接其他可靠的网络,看看问题是否仍然存在。 最后,这个错误消息还可能与服务器端的配置或设置有关。服务器可能没有正确地响应websocket连接请求,或者在连接过程中遇到了错误。如果你没有服务器管理权限,你可以联系服务器管理员或技术支持来了解更多信息,并让他们检查服务器的配置和日志,以解决这个问题。 总结起来,当遇到类似的错误消息时,你可以采取以下步骤来解决问题:检查URL是否正确,确保网络连接稳定并且服务器配置正确。如果问题仍然存在,你可以联系相关的技术支持或管理员寻求进一步的帮助。希望这些信息对你有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值