利用PaddleHub 2.x 完成文本分类训练的坑

最新推荐文章于 2024-05-29 19:47:57 发布

kinfey

最新推荐文章于 2024-05-29 19:47:57 发布

阅读量1.1k

点赞数 4

分类专栏： PaddleHub PaddlePaddle 文章标签：人工智能

本文链接：https://blog.csdn.net/kinfey/article/details/117254781

版权

基于项目选择了PaddlePaddle 作为文本分类的基础，经过一周多的使用终于有所进展，把文本分类的相关工作做了一个简单模型。

首先说说PaddlePaddle , 现在做深度学习，更多用户使用的是TensorFlow / PyTorch ，但其实还有很多类似的框架，PaddlePaddle就是其中之一。有人会说TensorFlow / PyTorch 已经这么优秀了，为何还用 PaddlePaddle 呢？我这里也想结合一周多的使用说说。当初使用 Paddle Paddle框架我看中的是他在自然语言中文领域有很多现成的模型，举个例子如情感分类，如阅读理解，还有自动问答等，而且在使用上也是非常简单。我就是奔着这个去的，至于其他像内存占用小啊，API易用这些用过就知道其实是一个场景相对的工作。如果我们使用自然语言相关，我是建议使用，但在计算机视觉或者其他的都差不多。PaddlePaddle 在设计初期就兼顾了动态图和静态图，所以还是不错的。

PaddlePaddle 有不少预训练的模型，基于预训练组建了一个PaddleHub , 可以让你快速调用并完成模型的管理，你还可以基于自有的模型做迁移学习，更好地服务应用场景。这里做文本分类，我就直接用了PaddleHub 自有的 ERNIE 进行迁移学习。就这样我就开始了一段神奇之旅。

一.ERNIE

在中文领域，这是一个非常非常棒的自然语言模型，和BERT 比，采用了先知Mask机制，和随机Mask 的BERT比，能更有效对中文常用词进行判断。更多可以参考 https://github.com/PaddlePaddle/ERNIE