机器学习菜鸡一只,了解了UCI的两个大规模的数据集,UCI Susy (Supersymmetry Particles )Data set 我翻译为超对称粒子数据集,在读一篇文章
Deep Learning in High-Energy Physics: Improving the Search for Exotic Particles,
效率不是很高,读了一个晚上加一个上午还没有读完,这篇文章中除了用到Susy这个数据集还用到了 Higgs Bosons这个数据集。
先大概介绍一下这篇文章讲了什么,新的奇特粒子的发现一个传统的且很有效方式就是高能粒子之间的碰撞。找到这些稀有的例子需要解决困难的signal versus background(我翻译为信号与背景)分类问题,因此机器学习方法常用于处理这个问题。过去常规的“”浅层“”机器学习模型有着在学习非线性输入函数的限制,并很依赖人工构建非线性输入。这个问题在过去遇到了瓶颈,但于此同时一些新的方法的提出如神经网络、提高决策树和支持向量机展现了良好的性能。最近随着深度学习领域的发展,尤其是在人工神经网络的基础上,使得学习更加复杂的函数和更好的区别signal和background这两种类别。(目前还不清楚物理学中signal和background有什么合适的中文术语)。文章使用了UCI的基准数据集,文章中的实验结果表面使用深度学习方法不需要人工构建输入参数然而通过与当前却最好的能方法比提高AUC这一分类指标8个百分点。文章中任务这是一个相对来说很大的提高并很有力的佐证了深度学习方法可以在物理学界寻找奇异粒子这一领域有很好的作用。
SupperSymmetry Particles(Susy)
超对称粒子数据集
这个数据集的分类任务是为了区分在产生新的超对称粒子的过程中,导致在最终状态有一些粒子是可以检测道德其他的不可检测的并且在后向过程中有相同的可检测的例子但是有更少的不可见粒子和不同的运动特征。
这个数据集目前在高能物理领域非常受欢迎,现在研究者也做了大量的努力和工作去构建高层次特征用于这个分类任务。
先到这。。