谷歌开源AutoML算法库，自动写出你想要的AI模型

最新推荐文章于 2025-01-20 16:10:00 发布

datayx

最新推荐文章于 2025-01-20 16:10:00 发布

阅读量947

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzA4MTk3ODI2OA==&mid=2650355723&idx=1&sn=3b9f44c40071e22ba97ee55a688615dd&chksm=87812ef8b0f6a7eec4dfa5208d498ee940b156de326180bd22ae5ce4df0a0aa074c825089870&scene=126&&sessionid=0

版权

向AI转型的程序员都关注了这个号👇👇👇

好消息，谷歌将AutoML算法库开源了！

这个名为“模型搜索”（Model Search）的平台，不仅可以用多个AutoML算法自动写出你想要的AI模型，还能帮你选出写得最好的那个。

项目地址：https://github.com/google/model_search

最重要的是，各个领域都能用。

也就是说，以往只支持NLP、图像分类等等单一领域模型搜索的AutoML算法，现在被整合到了一个平台上，可以帮你构建任何AI模型。

现在，无需再重新设计参数、或反复微调，“AI设计师”就能帮你写出想要的模型。

“模型搜索”是个什么平台

此前，AutoML算法已经被应用到了各个领域，用来减轻神经网络设计专家的负担。

这种算法，目的是让AI来设计神经网络，自动对网络深度、层类型、结构、优化算法等因素进行合理搭配，效果通常比人工直接设计更好。

然而，这种由AI来设计AI模型的方法，会面临两个问题。

其一，这些算法通常只能针对某一特定领域，无法被应用到其他领域中。

例如针对NLP的AutoML算法，就无法设计出图像分类的AI模型。

其二，计算量很大。

之前的NAS和PNAS算法，往往需要训练数千个模型，才能找到效果最好的。

针对这两个问题，谷歌现在推出了“模型搜索”开源平台，致力于解决它们。

这个系统由多个训练器（trainer）、1个搜索算法、1个迁移学习算法和1个包含多种评估模型的数据库构成。

过程中，每个训练器都会独立地构建模型、进行试验，但这些训练器能共享数据，并采用横向搜索，决定下一步尝试什么样的模型。

“模型搜索”能根据一组预定义模块，来构建神经网络模型，每个模块包含一个经典微结构，包括LSTM、ResNet或是Transformer中的某些层等等。

这种微结构的模式，也减少了搜索规模，因为它探索的是这些模型的结构，而非更详细的基本部分。

而为了进一步提高效率和准确性，这一算法还能在训练器完成各种实验时，进行迁移学习。主要通过知识提取和参数分配两种方法。

通过知识提取，新模型可以从高性能模型中借鉴损失函数，提高自身准确性；而通过参数分配，新模型采用之前训练模型中的部分参数，并初始化剩余的参数，就能训练得更快。

在逐渐迭代的过程中，最好的模型就被“搜索”出来了。

谷歌表示，“模型搜索”是个具有自适应性、贪婪性、而且比强化学习算法收敛速度更快的算法。

这个算法，目前具有如下功能：

可以在数据上运行多个AutoML算法，可以自动搜索合适的模型结构、模型融合方法，并选择最佳模型。
可以比较在搜索时发现的不同模型；
可以自行设计特殊的神经网络层并应用。

目前，“模型搜索”支持Tensorflow框架。

也就是说，各模块都能实现任何以张量为输入的函数。

比人类设计得好，比PNAS更高效

经过实验，“模型搜索”平台搞出来的AI模型，确实还不错。

作者们用“模型搜索”平台，试着写了个语音AI模型，主要功能是关键字检测和语言识别。

下图中，实线是AI写出来的模型迭代精度，虚线则是此前人工设计出的SOTA模型。

显然，无论是最小迭代次数、还是最后的迭代精度，“模型搜索”平台用AI写出的模型，都比人工设计的要好得多。

也就是说，设计所用的参数量更少了（相比于人工设计的31.5万，AI只需要18.4万），精度反而还上升了。

那么，这个“模型搜索”框架的搜索效果，相比于其他用AI写AI模型的搜索算法，哪个效果更好？

作者们用CIFAR-10数据集试了试图像分类模型。

测试发现，用AutoML尝试写了209个模型后，最好的模型就已经达到了91.83%的精确度。

而此前，NasNet需要尝试5807次、PNAS需要尝试1160次，才能达到相同的精度。

也就是说，用这个平台设计的AI模型，不仅能达到在某些领域达到比人类设计更好的效果，还比其他“AI设计师”速度更快。

不想辛苦调参的话，这绝对是个非常理想的模型设计平台了。

不包含全部AutoML算法

所以，谷歌当真就把自己之前的收费项目开源了？

不不不。

更高级的AutoML算法，目前还是要收费的。

这是个名为AutoML Tables的项目，无需写代码，它就能帮你自动构建和部署最先进的机器学习模型。

而性能最优的AutoML算法，目前都包含在这里面了。

目前，谷歌已经将AutoML、MLOps、AI Platform整合到一起，成为了一个更大的AI Platform平台。

当然，也是要付费的。

也就是说，目前开源的这个“模型搜索”平台，只包含一部分AutoML算法。

作者介绍

Hanna Mazzawi，谷歌研究工程师，研究方向是机器学习、算法设计和分析、数学软件。

Xavi Gonzalvo，硕博均毕业于西班牙拉蒙尤以大学（Ramon Llull University），目前在谷歌任研究科学家，从事机器智能相关的工作。

如果想快速写出需要的AI模型，可以上手这个项目了~

项目地址：
https://github.com/google/model_search

参考链接：
https://cloud.google.com/automl-tables
https://ai.googleblog.com/2021/02/introducing-model-search-open-source.html

机器学习算法AI大数据技术
 搜索公众号添加： datanlp

长按图片，识别二维码
阅读过本文的人还看了以下文章：
TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank，用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解，通俗易懂！

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门：基于Python的理论与实现》高清中文PDF+源码

《深度学习：基于Keras的Python实践》PDF和代码

特征提取与图像处理(第二版).pdf

python就业班学习视频，从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习：基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》，加州伯克利深度学习（2019春）教材

笔记、代码清晰易懂！李航《统计学习方法》最新资源全套！
《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API
FashionAI服装属性标签图像识别Top1-5方案分享

重要开源！CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字
同样是机器学习算法工程师，你的面试为什么过不了？

前海征信大数据算法：风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目，让你掌握深度学习图像分类

VGG16迁移学习，实现医学图像识别分类工程项目
特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七)：图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分？

Machine Learning Yearning 中文翻译稿
蚂蚁金服2018秋招-算法工程师（共四面）通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南：CNN、RNN及使用技巧速查（打印收藏）

python+flask搭建CNN在线识别手写中文网站
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
 搜索公众号添加： datayx