用 NumPy 创造深度学习用的数据集
作者/分享人:林奇思妙想
前新思科技(Synopsys) 软件工程师, 前开立图像算法工程师; 常常在开源世界里行走。 爱好广泛,天性喜欢折腾; 目前正在某医疗大数据公司做 GPU 高性能优化项目.
网上有很多的深度学习训练集, 他们很优秀,但是也具有如下几种缺点:
- 数据集一般很巨大, 下载带宽是限制
- 数据并不是很形象,很难去窥探为什么使用这个数据
- 数据质量不是那么可控
- 用来训练非常耗时,耗资源,比方只有 GPU 机器才能跑等等
基于以上的事实,我在平时的工作中,就不得不写一些数据集生成代码。 写的过程中,我也觉得非常有启发, 下面我们分享这一过程的心得。
包括以下内容:
- 生成数据
- 如何加杂噪声,如何控制生成数据的质量
- 怎么可视化生成的数据集
- 如何