雅虎开源色情图片检测神经网络

0?wx_fmt=gif

编译自:https://techcrunch.com/2016/09/30/yahoo-open-sources-its-porn-detecting-neural-network/ 
作者: Devin Coldewey
转载自:techcrunch http://techcrunch.cn/2016/10/01/yahoo-open-sources-its-porn-detecting-neural-network/


640?wx_fmt=jpeg

如果你对网络上那些打上 NSFW(No Safe For Work,上班时间不要看)标签的照片是如何分类感兴趣的话,你应该会对这条新闻感兴趣,雅虎刚刚 开源了他们自己构建的一套深度学习神经网络[1] ,专门用于自动检测图片是否含有色情内容。

话虽简单,事实上用机器去分辨色情图片确实是件困难的事,毕竟在法理上区分淫秽都非常不容易,甚至可以说根本无法定义淫秽。美国前大法官波特·斯图尔特有一句名言:“ 我看到它,才知道它是不是[2] ”。机器是没有七情六欲的,任何图片在它看来都只是文件。

经过多年的研究和实践,卷积神经网络已经证明是最好的图片归类工具,只要提供相应的数据库,算法就可以学习这类图片的特性,比如分类狗狗的照片,只要识别尾巴鼻子头;分类汽车,前脸轮子门把手;给机器“欲望”,你们自己脑补吧。

雅虎的色情图片识别系统会给图片一个 NSFW 值,最无害的是 0,最极端是 1,题图里花从中的姑娘的 NSFW 值是 0.001,铁人三项妹子因为穿的稍微运动一些,数值升高到 0.116,也都不是色情图片的标准。

开源之后,这套识别系统可以在很多场合使用,除了第一时间能想到的审查系统,比如还可以用作自动 NSFW 标签器,帮你过滤工作邮箱里不合时宜的图片(来自其他员工的恶搞)。

各位如果有兴趣的话可以去 雅虎的文章[3] 里查看详细情况,模型可以在 GitHub[4] 上下载,如果你想要搭建自己的色情图片识别系统,你必须自己提供数据,不过我想这应该不是什么问题。

(配图来自网络,非原文配图)

编译自:https://techcrunch.com/2016/09/30/yahoo-open-sources-its-porn-detecting-neural-network/ 
作者: Devin Coldewey
转载自:techcrunch http://techcrunch.cn/2016/10/01/yahoo-open-sources-its-porn-detecting-neural-network/



[1]: https://yahooeng.tumblr.com/post/151148689421/open-sourcing-a-deep-learning-solution-for
[2]: https://www.zhihu.com/question/32421342/answer/55716515
[3]: https://yahooeng.tumblr.com/post/151148689421/open-sourcing-a-deep-learning-solution-for
[4]: https://github.com/yahoo/open_nsfw/blob/master/README.md



0?



-END-640?

欢迎关注“互联网架构师”,我们分享最有价值的互联网技术干货文章,助力您成为有思想的全栈架构师,我们只聊互联网、只聊架构,不聊其他!打造最有价值的架构师圈子和社区。

本公众号覆盖中国主要首席架构师、高级架构师、CTO、技术总监、技术负责人等人 群。分享最有价值的架构思想和内容。打造中国互联网圈最有价值的架构师圈子。

  • 长按下方的二维码可以快速关注我们

  • 640?wx_fmt=jpeg

  • 如想加群讨论学习,请点击右下角的“加群学习”菜单入群

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用:网络需要在图像和输出概率(评分0-1)之间过滤不适合工作的图片。评分<0.2表示图像具有较高概率是安全的。评分>0.8表明极有可能是不适合工作(NSFW)图像。我们建议开发者根据用例和图像类型的不同选择合适的阈值。根据使用情况、定义以及公差的不同会产生误差。理想情况下,开发人员应该创建一个评价集,根据“什么是安全的”对他们的应用程序进行定义,然后适合ROC曲线选择一个合适的阈值。结果可以通过微调你的数据/ uscase /定义NSFW的模型的改进。我们不提供任何结果的准确性保证。使用者适度地结合机器学习解决方案将有助于提高性能。模型描述:我们将不适合工作的图片(NSFW)作为数据集中的积极对象,适合工作的图片作为消极对象来进行训练。所有这些被训练得图片都被打上了特定的标签。所以由于数据本身的原因,我们无法发布数据集或者其他信息。我们用非常不错的名字叫“CaffeOnSpark”的架构给“Hadoop”带来深度学习算法,并且使用Spark集群来进行模型训练的实验。在此非常感谢 CaffeOnSpark 团队。深度模型算法首先在 ImageNet 上生成了1000种数据集,之后我们调整不适合工作(NSFW)的数据集比例。我们使用了50 1by2的残差网络生成网络模型。模型通过 pynetbuilder 工具以及复制残余网络的方法会产生50层网络(每层网络只有一半的过滤器)。你可以从这里获取到更多关于模型产生的信息。更深的网络或者具有更多过滤器的网络通常会更精确。我们使用剩余(residual)网络结构来训练模型,这样可以提供恰到好处的精确度,同样模型在运行以及内存上都能保持轻量级。 标签:opennsfw

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值