全文共1672字,预计学习时长6分钟
图源:unsplash
不管是在学界还是业界,机器学习的发展都十分迅速,相关论文数量的呈指数增长,平均每15分钟就有一篇新论文发表。
这种发展速度也给我们带来了新的挑战:面对越来越多的论文和知识库,我们该如何过滤信息,保证获取最新知识?
有一个机器学习成果主站致力于在一处汇总机器学习的所有成果,可以保持与该领域进展时刻联系。每个人都可以从最新的知识中受益,包括研究人员、工程师和业余爱好者,以便改善可获得性,并最终促进自身的发展。
去年我们的 leaderboards排行榜功能迈出了第一步。用机器可读的格式和免费的许可证,将所有在ML中发布的结果整理到一起,这是整个社区的努力。成千上万的贡献者为自己和其他的论文添加了结果,所有人的共同努力让我们创建了世界上最大的机器学习成果数据库。
本文将介绍几个令人兴奋的有代码论文的更新:
· 新成果界面:直接链接到arXiv论文的表格,成为机器学习成果的主要来源。
· 大型数据库更新:800多个新的排行榜,5500多个新结果,方法之间能够进行更多的任务比较。
· 机器学习提取算法:半自动提取论文结果,比以往精度更高。
新成果界面
研究人员对排行榜功能的主要要求之一,是更清晰说明论文中的成果来自何处。因此我们推出了新成果界面,直接将成果与arXiv论文中的原始表格链接起来。
例如ImageNet排行榜,单击任意一行的结果图标,它将跳转到文章表格中成果的来源。示例如下:
现在论文中成果直接链接到表格
这个新界面还可以作为新的论文成果编辑器,社区可以添加来自他们自己论文的结果,并直接将它们与内部的表格链接。这个接口目前只能用于使用LaTeX源代码的arXiv论文。
大型数据库更新
新界面和提取模型拓宽了资源:截至目前,这里已有800多个新的排行榜和5500多个新结果。这有助于资源全面性的实现,但还远远不够!我们呼吁所有机器学习论文的作者、工程师和爱好者提交自己的和读过的任何论文。
图源:unsplash
我们的数据库是免费开放的,每个人都可以做出贡献。所有的数据都是在免费的开放数据许可协议下授权的,可以在这里下载所有JSON格式的数据。社区的持续贡献将保持资源的运行,提高可访问性,让知识在领域里动起来。
自动提取结果
从论文到使用AxCell的成果
过去的一年里,我们一直在研究从机器学习论文中自动提取成果的方法。如今有了新的人工循环系统,便于成果的提取。
模型为每一篇arXiv机器学习论文生成建议,可以选择接受也可以拒绝。比以前的最先进水平显著提高的性能,已经使系统在实际上可以实现。这将提高成果的质量和覆盖率,以便随时向社区通报机器学习的新进程,哪怕是在小众冷门和专门的子领域。
在 arXiv上已经发布了整个方法,并在GitHub上开放了整个过程(https://github.com/paperswithcode/axcell)。
此外,我们还发布了用于结果提取的训练模型的数据集,它具有结构化、有注释的特点,另一个数据集用于评估模型在此任务中的性能表现。
技术的发展给我们带来实打实的便利。几年前,跟踪机器学习的进展还是很困难的,现在你可以在Google上输入随便一个基准,在几秒钟内就能找到最好的方法。
图源:unsplash
但排行榜有其局限性。排行榜上的指标通常只是点估计,而许多因素影响最终的价值,例如额外的训练数据、训练时间和数据增加的选择。
此外,数据偏差可能意味着排行榜的进展并不是衡量研究进展的最佳方式。之后我们会进行将更深入研究,以便能够更好比较机器学习方法,而不仅是简单地比较给定基准的最新水平。
整体而言,如今发布的变化确实是朝着将所有机器学习成果集中在一起。
我们期待新特性能给使用者带来更全面的体验,即使是机器学习的小众领域也能拥有工具,更好总结进展和比较不同的方法。请浏览 paperswithcode.com/sota目录,使用搜索找到论文、添加成果!
机器学习的研究世界需要我们共同构建,期待着在不久的将来能有更多像这样的功能。
推荐阅读专题
留言点赞发个朋友圈
我们一起分享AI学习与发展的干货
编译组:王品一、刘鉴楠
相关链接:
https://medium.com/paperswithcode/a-home-for-results-in-ml-e25681c598dc
如转载,请后台留言,遵守转载规范
推荐文章阅读
长按识别二维码可添加关注
读芯君爱你