广告中异常检测问题，及样本不均衡代价敏感等解决途径

OPPO互联网技术

于 2019-12-05 10:34:23 发布

阅读量847

点赞数

文章标签：机器学习异常检测广告系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oppotech/article/details/103400047

版权

本文来自OPPO互联网技术团队，如需要转载，请注明出处及作者。欢迎关注我们的公众号：OPPO_tech

在多数中寻找少数异常样本，这在实际工业生产中是非常常见的一种诉求，因为特殊的判别需求总是体现在少数部分里头。以广告为例，在众多广告实际点击，表单提交中如何判别异常点击异常案例，也是非常常见的案例。

文本从业务场景出发，阐述实际广告以及生活中的这种场景诉求，然后分别从Smote过采样，PU学习以及CostSensitive Classification等几个维度进行深度的剖析。

所谓异常检测，即在正常的流程中，你需要识别出来潜在的异常，而一般情况下，异常则意味着风险，所以，在实际的场景中，这类诉求是非常常见的。

1. 实际生活中的异常检测场景

我们的大主题是广告，所以还是先以广告为例，在实际的广告投放中，什么场景下会有类似的异常检测的诉求呢？

广告投放的核心目标是给流量投放广告，然后最终期望用户点击广告带来转化，这种所谓的转化有可能是直接的点击（常规CPC广告），也有可能是APP的下载（常规的APP应用下载投放），还有可能是咨询沟通（在线咨询），也有可能是表单收集（常见的H5类型投放，表单收集）。

每产生一个Click，每产生一个下载，每产生一次表单提交，这都意味着需要扣广告主的钱，如果说点击/下载/表单填写都是假的呢？这个职责谁来承担，反正广告主钱是已经扣了。

以表单提交为例，H5的投放，大部分对于广告主来说还有后续的一些其他操作，诸如拿着表单信息进行离线的电话沟通等，一方面推广费用已经扣除，另一方面收集过来很大一部分是无效表单，联系不上，恶意辱骂，信息错位等等，其离线的进一步营销也是需要成本的。这就造成了无效成本的进一步增大。

那么，会有这么多错误点击和错乱表单的存在吗？真的是有的，有一些习惯性无聊的，看到广告就瞎点；有一些是竞品玩家，纯粹故意恶心你来的；还有一些人性本恶的，估计进来骂人以及找骂的；还有一些机器人等等。

针对这些人这些情况，我们如果能提前一步识别出来，避免将广告投放给他，如果能够控制召回和准确率，岂不妙哉；退一步讲，就算提前预测不出来，点击之后，产生表单之后再进行识别，这样也可以避免给广告主造成经济损失，也是可以的。

但是，这毕竟少数人，如果是大规模的情况，那意味着你大广告投放环境实在太糟糕了，建议不要做广告了。

这种抓“坏人”的情况除了广告领域，其他领域也大有存在，比如网站或者平台上的恶意流量识别，电商里找撸羊毛的羊毛党，贷款领域里的潜在贷款风险人的识别等。

各行各业，都有类似的诉求，是的，找“坏人”。

2. 异常检测与分类

可以看到，

最低0.47元/天解锁文章

OPPO互联网技术

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
广告中异常检测问题，及样本不均衡代价敏感等解决途径

本文来自OPPO互联网技术团队，如需要转载，请注明出处及作者。欢迎关注我们的公众号：OPPO_tech在多数中寻找少数异常样本，这在实际工业生产中是非常常见的一种诉求，因为特殊的判别需求总是体现在少数部分里头。以广告为例，在众多广告实际点击，表单提交中如何判别异常点击异常案例，也是非常常见的案例。文本从业务场景出发，阐述实际广告以及生活中的这种场景诉求，然后分别从Smote过采样，PU学习以及...
复制链接

扫一扫

OPPO互联网技术 CSDN认证博客专家 CSDN认证企业博客

码龄5年

5: 原创

111万+: 周排名

179万+: 总排名

5018: 访问

: 等级

95: 积分

8: 粉丝

0: 获赞

2: 评论

11: 收藏

私信

关注

热门文章

最新评论

基于RocksDB实现精准的TTL过期淘汰机制
taoshuizhongren: 作者你好，我按照你提供的方法，[code=java] List<Integer> ttls = new ArrayList<>(); for (Map.Entry<String, Long> me : col2Ttl.entrySet()) { ColumnFamilyDescriptor testCF = new ColumnFamilyDescriptor(me.getKey().getBytes()); testCF.getOptions().setTtl(me.getValue()) .setLevelCompactionDynamicLevelBytes(true) .optimizeUniversalStyleCompaction(); cfDescriptors.add(testCF); ttls.add(me.getValue().intValue()); } if (dbOpType == DbOpType.READ) { dbOptions.setMaxOpenFiles(-1); rocksDB = RocksDB.openAsSecondary(dbOptions, primary, secondary, cfDescriptors, cfHandles); rocksDB.tryCatchUpWithPrimary(); } else if (dbOpType == DbOpType.WRITE) { rocksDB = TtlDB.open(dbOptions, primary, cfDescriptors, cfHandles, ttls, false); rocksDB.compactRange(); } [/code]，但无法删除
基于RocksDB实现精准的TTL过期淘汰机制
BrotherDongDong: 我们团队在哪个城市？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。