本项目对应PaddlePaddle链接,欢迎fork与讨论:
基于ERNIE的汽车之家评论多标签分类
1. 项目背景
汽车之家是全球最大的汽车论坛,上面累积了丰富的汽车数据,如汽车详情参数、用车感受、购车评价等。我主要关注其中的购车评价数据,并且希望将非结构化的评论数据结构化,提取出评论内容的核心特征。下图展示了购车评价的文本数据样例。
汽车之家网站默认从空间,动力,油耗,外观,内饰,舒适性,操控感,性价比这八个维度对评论展开描述。我希望从“最满意的一点”文本评论中,识别出该评论内容涵盖了空间,动力,油耗,外观,内饰,舒适性,操控感,性价比中的哪些维度。该任务属于多标签分类的范畴。
2. 问题描述
具体的输入输出流程,可抽象为下图所示:
3. 解决思路
官方文档提供了多标签分类的案例,通过阅读文档可以判断,本任务通过预训练模型微调的方法应该就可以完成。下一步将整体任务拆解为多个子任务:数据标注、整合自定义数据集、调用多标签分类API接口(tra