【Kaggle Quick, Draw!】涂鸦识别,AI与你同在

https://www.kaggle.com/c/quickdraw-doodle-recognition

Quick, Draw!是Google推出的一款很好玩的AI涂鸦游戏,玩家需要在20秒内画出指定内容,例如鸭子、冰箱、苹果等,它的神经网络会实时识别你的涂鸦。

最近Google在kaggle上发布了优化QuickDraw预测识别能力的比赛,Quick, Draw! Doodle Recognition Challenge,本篇博文就来是分享涂鸦识别的心得。与以往同类比赛不同的是,这次的数据集规模特别庞大,共有340个分类,总计将近5000万个样本!我在r5 6cores CPU + RTX2070 8G GPU + NVME SSD的机器上训练1 epoch就用时18个小时! 这个比赛的算力门槛很高,如果没有足够的人力和算力支持,那再好的模型也出不来。AI的世界也要拼爹。

为了不至于让你被算力劝退,本文提供的notebook只取一小部分数据参与训练,你可以根据实际情况调整数据量。github: here

Read the code / Notebook

def get_count(path): return (path.stem, pd.read_csv(path).shape[0])
with ThreadPoolExecutor(2) as e: counts = list(e.map(get_count, TRN_PATH.iterdir()))
counts = sorted(counts, key=lambda x: x[1])

len(counts), counts[0], counts[-1], np.mean([o[1] for o in counts]).astype(np.int)

(340, ('panda', 113613), ('snowman', 340029), 146198)

前文说过这个数据集特别庞大,我把每个分类的样本数统计到counts变量,共340个分类,平均每个分类提供了14万6千个训练样本,最少的样本数分类也达到11万,少数几个分类的样本数则超过30万。

Figure 1: sample counts

这是样本分类不均的数据集,如果不打算训练完所有的样本,可以每个分类只取最多15万个样本。

Prepare data

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值