GitHub上20多万张不可描述图片的数据集

江湖一直有传闻:三流程序员写UI,二流程序员写框架,一流程序员写算法,顶级程序员穿女装。

现如今头发的稀疏程度也绝不再是判断对方是否一个高级程序员的标志,因为年纪轻轻秃头已经成为了一个不争气的现实。在头发上没什么好聊的,代码也没什么好比,那么咱们就来比比女装。

一说起女装,江湖中各位程序员大佬纷纷报道前来,约在武当山「GitHub」一战高下。这一战有一个不成熟的约定:只有男孩子程序员才能在这里上传自己的照片,而且一定要是女装照片。

 这个GitHub项目可谓是集齐了各种各样的女装大佬,7000+的star让这个项目充满了基情。从项目中随便抽出几张女装大佬的照片就是下面这样子的:

上面这个项目都是女装大佬,披着女装的男孩。下面再说的这个项目可就是真女装了。这个项目名字叫做nsfw_data_scrapper,它是一个图集项目,是一个包含20多万张不可描述图片的数据集。

这些图片是一个叫做Alexander Kim的数据科学家采集了众多色情网站的图片数据编织而成的。可谓是相当有良心的科学家了。

项目中的二十多万张图片总共分为了五大类别:

这个项目的用途其实倒是挺多的,比方说用来识别色情照片,用来识别视频中的色情片段做敏感内容过滤。或者是用来训练图像分类器。建议大家把这个项目给下载下来自己练练手。

GitHub网址:https://github.com/komeiji-satori/Dress

。。。。。。。。。。。。。。。。。

版权原因,完整文章,请参考如下:

GitHub上20多万张不可描述图片的数据集

使用:网络需要在图像和输出概率(评分0-1)之间过滤不适合工作的图片。评分<0.2表示图像具有较高概率是安全的。评分>0.8表明极有可能是不适合工作(NSFW)图像。我们建议开发者根据用例和图像类型的不同选择合适的阈值。根据使用情况、定义以及公差的不同会产生误差。理想情况下,开发人员应该创建一个评价集,根据“什么是安全的”对他们的应用程序进行定义,然后适合ROC曲线选择一个合适的阈值。结果可以通过微调你的数据/ uscase /定义NSFW的模型的改进。我们不提供任何结果的准确性保证。使用者适度地结合机器学习解决方案将有助于提高性能。模型描述:我们将不适合工作的图片(NSFW)作为数据集中的积极对象,适合工作的图片作为消极对象来进行训练。所有这些被训练得图片都被打上了特定的标签。所以由于数据本身的原因,我们无法发布数据集或者其他信息。我们用非常不错的名字叫“CaffeOnSpark”的架构给“Hadoop”带来深度学习算法,并且使用Spark集群来进行模型训练的实验。在此非常感谢 CaffeOnSpark 团队。深度模型算法首先在 ImageNet 上生成了1000种数据集,之后我们调整不适合工作(NSFW)的数据集比例。我们使用了50 1by2的残差网络生成网络模型。模型通过 pynetbuilder 工具以及复制残余网络的方法会产生50层网络(每层网络只有一半的过滤器)。你可以从这里获取到更多关于模型产生的信息。更深的网络或者具有更多过滤器的网络通常会更精确。我们使用剩余(residual)网络结构来训练模型,这样可以提供恰到好处的精确度,同样模型在运行以及内存上都能保持轻量级。 标签:opennsfw
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值