统一 Executor 和 ParallelExecutor 接口,用户只需通过 CompiledProgram 将单卡模型转化多卡模型,并利用 Executor 进行训练或者预测。
正式发布 AnalysisConfig 预测接口,支持计算图分析、算子融合等优化,并支持利用 Intel MKLDNN、Nvidia TensorRT 子图引擎等第三方库的加速.
模型库新增发布 PaddlePaddle 视频模型库,提供 5 个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式配置模型完成训练和评测。
新增支持 NLP 语义表示 BERT 模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升 50%+,提供完整部署示例。
发布大规模稀疏参数服务器 Benchmark,CPU 多机异步训练发布显著提升点击率预估任务 IO 吞吐的 built-in reader,多机多卡训练性能多方面提升。
版本在基础框架、预测引擎、模型建设、分布式训练上的具体更新情况如下:
基础框架
安装
新增 Linux 和 MacOS 下的中文版本辅助安装脚本,提供交互式安装方式,协助用户在复杂环境下完成 PaddlePaddle 安装。
Windows 支持优化:新增 cuda8,cudnn7 的 GPU 支持,新增 AVX 指令集、MKLDNN、mnist 数据集支持。修复 Windows 加载 Linux/Mac 下同版本 paddle 训练模型的问题。
增加动态图基础功能
动态图 tracer、 autograd、python Layer/PyLayer,动态图支持 MLP、GAN、ptbRNN、Resnet 模型,动态图支持 Optimizer、GPU 训练。
Executor 和 ParallelExecutor 接口优化
对 Executor 和 ParallelExecutor 接口进行统一,用户只需通过 CompiledProgram 将单卡模型转化多卡模型,并利用 Executor 进行训练或者预测。
ParallelExecutor 优化:对 MultiDevSSAGraphBuilder 进行重构,使得 MultiDevSSAGraphBuilder 更易扩展。去除 ParallelExecutor 中的设备锁,提升 ParallelExecutor 多卡调度性能。