专栏导读
作者简介:
工学博士,高级工程师,专注于工业软件算法研究- 本文已收录于专栏:《机器学习实用指南》本专栏旨在提供 1.机器学习经典案例及源码;2.开源机器学习训练数据集;3.机器学习前沿专业博文。以案例的形式从实用的角度出发,快速上手机器学习项目,在案例中成长,摆脱按部就班填鸭式教学。
- 欢迎订阅专栏,订阅用户可私聊进入机器学习交流群(知识交流、问题解答),并获赠丰厚的机器学习相关学习资料(教材、源码、视频课)
- 专栏订阅地址:https://blog.csdn.net/u010542847/category_12577105.html
文章目录
众所周知,访问预先训练的深度学习模型对于当代深度学习应用至关重要。随着最先进的模型变得越来越大,达到数万亿个参数,在许多领域,尤其是自动语音识别等领域,从头开始训练高级模型不再有意义。
鉴于预训练深度学习模型的重要性,哪个深度学习框架(PyTorch 或 TensorFlow)为用户提供更多此类模型是一个需要回答的重要问题。
在本文中,我们将定量地探讨这个主题,以便您可以随时了解深度学习领域的当前状态。
为什么预训练的深度学习模型很重要?
特别是对于自然语言处理等复杂的应用程序,模型的大小和复杂性阻碍了工程和优化过程,从头开始构建最先进的 (SOTA) 模型的能力对于大多数人来说都是不可能完成的任务。
OpenAI 的范式转变 GPT-3 拥有超过 1750 亿个参数;如果这还不够,它的后继者GPT-4 的参数大几个数量级, GPT-4 拥有超过 100 万亿个参数。
由于这种模型的增长,小型企业在其工作流程中只能依赖于预先训练的深度学习模型,用于直接开箱即用的推理、微调或迁移学习。
在模型可用性方面,PyTorch 和 TensorFlow 存在巨大的不同。 本文将定量研究这两个深度学习框架的模型可用性,以了解它们的比较情况。
HuggingFace的统计结果
HuggingFace的迅速崛起表明了对预训练深度学习模型的需求,该公司最近在 B 轮融资中筹集了4000 万美元。 HuggingFace 的流行和快速增长可归因于其易用性,只需几行代码即可访问 SOTA 模型。
当我们按框架(