上班时间请勿打开,158万张鉴黄图片数据集来喽~

640?wx_fmt=jpeg


作者 | 琥珀

出品 | AI科技大本营(ID:rgznai100)


前方高能预警,非战斗人士请火速撤离……


今天给大家介绍一个在 GitHub 上一个开源的鉴黄图像数据集,它拥有 158万的数据量,叫做 NSFW data source URLs,目前该项目已收获 918 star 了。


项目地址:

https://github.com/EBazarov/nsfw_data_source_urls


640?wx_fmt=png


在 raw_data 文件夹里,可以找到不同的 .txt 格式的文档,每个文档都含有一组 URL,以下是关于该数据集的一些统计信息:


  • 159个 不同的类别

  • 158.9331 万个 URL

  • 下载并清洗后大约有 500GB,或者说有 130 万张 NSFW 图像


以下为项目中图片截图示例:


640?wx_fmt=png


注意事项:


1. 建议下载后清洗下数据集,例如:


  • 删除重复图片

  • 移动被禁止/删除掉的图片(它们有一个特殊的图像占位符)

  • 找出损坏的数据并将其删除


2. 注意噪声,一些资源提供了 NSFW 和中性图像的高度混合数据。


3. 该库还可以帮助检索 NSFW 图像,针对中性图像没有专用的 URL。


值得一提的是,在该项目之前还有一个类似的开源项目 nsfw_data_scrapper,里面有 22 万张图像,同样也可以用来检测或训练鉴黄系统。


项目地址:

https://github.com/alexkimxyz/nsfw_data_scrapper


(本文为AI科技大本营原创文章,转载请微信联系 1092722531)

精彩推荐

640?wx_fmt=png

推荐阅读:

                         640?wx_fmt=png

点击“阅读原文”,打开CSDN APP 阅读更贴心。

  • 2
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 20
    评论
评论 20
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值