数据处理个人总结（不断追加）

最新推荐文章于 2020-07-26 23:53:27 发布

insanegtp

最新推荐文章于 2020-07-26 23:53:27 发布

阅读量267

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/insanegtp/article/details/79989185

版权

仅作为备忘用，语无伦次，请见谅！！！

一、数据处理前一定要做好数据清洗

采集的数据格式和label都有各种问题，直接导入算法中，程序会出错，如果显性的报错还好办，就怕隐性的错误，根本就不知道训练的数据都不对。。。。反正loss也在下降。。。。很是坑啊！！！

例如：无效label（错误的、超出边界的、面积接近0的）、错误格式的图片、错误格式的xml（无object导致空label[]、label名字取错的）

二、python变量取名，在同一个域内注意不要重复使用

例如：x,y,i,j,l,lable,这些常用变量不要重复使用。。。。导致输出值莫名奇妙地是错的。。。。。找了好久问题。。。

三、分类问题要远比回归问题好解决，尽量把问题转化为分类

四、不要追求loss最低，因为很多时候是过拟合，要适当地val一下，如果过拟合了，再训练下去，即使loss再低，应该也没意义。模型炼丹经验还在摸索中，不时更新

五、目标检测项目不是所有的用mirror就会增强数据，我尝试在文本检测中用水平垂直mirror，可是发现loss比不用mirror增强还大。。。。个人推断是文本检测让机器更多的是识别文字的存在，然而文字镜像后还是文字吗？？检测只是判断是不是文字，镜像的文字在test中是不会出现的，如果让机器学习镜像就会导致（上述为推断。。。。靠谱结论待续）

错误备忘：

IndexError: too many indices for array 使用zip出这个错误，可能是矩阵横竖的问题

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据处理个人总结（不断追加）

仅作为备忘用，语无伦次，请见谅！！！一、数据处理前一定要做好数据清洗采集的数据格式和label都有各种问题，直接导入算法中，程序会出错，如果显性的报错还好办，就怕隐性的错误，根本就不知道训练的数据都不对。。。。反正loss也在下降。。。。很是坑啊！！！例如：无效label（错误的、超出边界的、面积接近0的）、错误格式的图片、错误格式的xml（无object导致空label[]、label名字取错的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。