SIGIR2019|基于注意力机制的新型深度学习模型(采莓树模型BIRD,已开源)

Finding Camouflaged Needle in a Haystack? Pornographic Products Detection via Berrypicking Tree Model

Guoxiu He, Yangyang Kang, Zhe Gao, Zhuoren Jiang, Changlong Sun, Xiaozhong Liu, Wei Lu, Qiong Zhang, Luo Si

Wuhan University, Alibaba Group, Sun Yat-sen University, Indiana University Bloomington

http://47.96.153.156/pubs/2019/09/17/ab7b85fb-8717-4204-9f70-ba2150f48fb2.pdf

http://delivery.acm.org/10.1145/3340000/3331197/p365-he.pdf

http://sigir.org/sigir2019/slides/10.1145-3331184.3331197.pdf

 

 

对于电商服务(如eBay, eBid 和淘宝)来说,检测非法产品既重要又紧迫。但是,该项任务具有一定的挑战性,因为一些卖家可能会利用和更改伪装文本来欺骗检测算法。

 

这篇文章旨在解决如何从大量产品中动态定位色情产品。先前有些论文将关注点放在基于文本信息进行产品分类,而这篇文章所提出的模型BerryPIcking TRee MoDel(BIRD)利用产品的文本内容和买方的搜索行为信息作为采莓树。

 

具体而言即为,BIRD在整个搜索过程中,将所有分支序列的语义信息和整体潜在的购买者意图进行编码。

 

大量实验表明本文方法相对其他方法的优势。

 

 

电子商务中的检测系统图示如下

 

采莓模型简短的解释如下

 

 

BerryPicking Tree图示如下

 

这篇文章所提出的模型及亮点在于

 

 

本文主要贡献如下

 

问题描述如下

 

 

 

BIRD整体结构图示如下

 

pooling及注意力机制的用途如下

 

 

所有分支合并的策略如下

 

 

这篇文章还提出了BPTRU

 

一些表达式形式如下

 

考虑双向以及均值pooling之后可以得到以下结果

 

剪枝策略如下

 

 

最终输出利用两层mlp来实现

 

数据集来源如下

 

 

数据集信息统计如下

 

 

参与对比的几种方法如下

 

几种不同的特征组合如下

 

 

几种基准模型描述如下

 

 

衡量指标如下

 

 

参数设置如下

 

 

两种类别中,产品内容单词的分布差异对比如下

 

 

对应的kl散度为

其中几个缩写对应的解释为

 

 

一个session内查询次数及记录数对比,购买次数对比如下

 

 

几种方法的分类效果对比如下

 

其中SWEM对应的论文为

Baseline needs more love: On simple word-embedding-based models and associated pooling mechanisms, ACL 2018

代码地址

https://github.com/dinghanshen/SWEM

 

Transformer对应的论文为

Attention is all you need, NIPS 2017

代码地址

https://github.com/jadore801120/attention-is-all-you-need-pytorch

https://github.com/Lsdefine/attention-is-all-you-need-keras

https://github.com/Kyubyong/transformer

https://github.com/tensorflow/models/tree/master/official/transformer

 

 

DPCNN对应的论文为

Deep pyramid convolutional neural networks for text categorization, ACL 2017

代码地址

https://github.com/Cheneng/DPCNN

 

 

BiGRUCNN对应的论文为

A hybrid framework for text modeling with convolutional RNN, SIGKDD 2017

代码地址

https://github.com/castorini/castor/tree/master/conv_rnn

 

CNNLSTM对应的论文为

A C-LSTM neural network for text classification

代码地址

https://github.com/bicepjai/Deep-Survey-Text-Classification/tree/master/deep_models/paper_14_clstm

 

BiLSTM对应的论文为

LSTMbased deep learning models for non-factoid answer selection, ICLR 2016

代码地址

https://github.com/sachinbiradar9/Question-Answer-Selection


SimpleCNN对应的论文为

Convolutional neural networks for sentence classification, EMNLP 2014

代码地址

https://github.com/yoonkim/CNN_sentence

 

 

不同特征组合的效果对比如下

 

 

本文方法跟其他几种方法的效果对比如下

 

其中BPTRU为

Berrypicking Tree Recurrent Unit

 

 

代码地址

https://github.com/GuoxiuHe/BIRD

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值