《中国人工智能学会通讯》——9.5 领域相关噪音正则

最新推荐文章于 2024-09-24 09:40:31 发布

weixin_33794672

最新推荐文章于 2024-09-24 09:40:31 发布

阅读量92

点赞数

文章标签：人工智能大数据

原文链接：https://yq.aliyun.com/articles/217958

版权

9.5 领域相关噪音正则

个人看来，误差建模未来最有希望的研究方向，可能正是在于考虑特定领域先验的噪音正则建模研究，其研究成果也有望进一步有力发掘机器学习方法所蕴含的潜能。形成这一看法本质的原因，是我们越来越多的发现现实数据中混有的所谓“噪音”，事实上往往具有非常丰富的结构信息和深刻的物理内涵。以两种图像数据为例：对 CT 图像，其噪音的形成经过了射线源投射、投影接收、成像、重构等复杂过程，每个阶段都会带来具有特定物理意义的噪音信息，从而最终体现为 CT 图像本身的噪音；对含雨图像，雨水滴落形成的噪音形态不仅具有条状连续等常规先验性质，且具有将背景变亮、整体方向一致等特别的物理特点。因此，摒弃传统的简单误差函数设置，而去更深刻考虑噪音的领域结构特点，并将其编码并嵌入到机器学习模型中对误差函数进行自适应调整和学习，也许更可能克服机器学习针对特定应用的鲁棒性问题，帮助其获得更加稳健的表现。

在我们所处的“大数据”时代，考虑领域先验对噪音进行细致建模的问题，可能变得尤为必要。一方面，大数据强调的重点也许并不仅在于其“大”，而更可能在于其“脏”。换句话说，由于数据来源的多样性，数据采集质量的良莠差异，数据特征与模态的复杂性等原因，大规模数据中蕴含的有益知识和信息，往往淹没于巨大而复杂的噪音干扰之中，从而导致传统算法很难有效从中提取信息。因此，取代于传统假设简单噪音的误差设置这把粗暴的大砍刀，通过更加细致、准确、有针对性地对数据噪音进行理解和认识，误差建模原理也许可以成为一把能够对领域噪音进行细致编码的雕刻刀，精细地剥去附着于数据之上的噪音，帮助机器学习实现更鲁棒的学习效果。

另一方面，也是极其重要的一个方面，即大数据可能会使对随机性噪音统计特征的估计更为稳健和有效。可以说，相比机器学习模型中对应数据确定性信息的模型参数，其对随机性信息相应参数（即噪音分布参数）进行估计的稳定性可能更加依赖于数据量的大小。大数据的“大”，也许可以很好地辅助误差建模方法找到其“脏”的本质统计规律，让数据帮助机器学习模型获得合理的误差函数形式，使其获得能够自适应于各种数据噪音的鲁棒计算。

综上所述，我们试图传达这样的观点：机器学习研究也许并不仅仅局限于确定性信息的建模问题，在未来的研究中，我们也许也应当聚焦于如何对随机性噪音信息进行更加充分合理的利用。针对这一问题，以上所介绍的误差建模原理提供了一种可行的实现手段，我们也期待该原理能够在未来引导出更多有趣的应用与发现。