在实际的算法工程中,在模型基本不变的情况下,数据的采集及数据的表示学习往往具有非常关键的作用。
这其中有以下几个重点:
- 数据采集的全面性。我们需要的场景往往分布在一个狭窄的时间域,整体数据量很多,但是真实有用的部分只占一小部分,人工筛选需要细致耐心,而且比较像大海捞针。。
- 要做到全面性,主要考虑到算法会面对那些场景和行为。比如不同时间的数据,可能会有哪些变化。场景角度、重叠的变化,尤其是摄像机采样的拍摄角度,对采集数据的质量也可能有影响。
- 其三是要考虑具体工业场景对设备的可能的影响,会不会导致算法失灵。比如煤矿油田,会不会有煤尘、油污把摄像机镜头污染影响算法的情况?振动会不会带来相机的位移?算法能在多大程度上克服环境的影响?克服不了的情况能否有预置预防方式或者后置处理方式?
- 算法的迁移性能如何提升?这样可以适用于更多场景、减少开发周期。