使用百度飞桨EasyDL实现AI文章自动分类

前言

为了降低人工成本,提升效率,选择用AI来帮助做工作,会有非常好的效果。但是通过自己组建AI算法团队来满足这个需求的话,不免有点成本飙升。为了拥有一套自己的AI工具,那么我们今天介绍一款低成本AI工具“百度飞桨EasyDL”,来实现自动分类。

开始

需求说明

开发一个汽车资讯网站,需要对资讯快速分发,快速分类,快速推送到不同的专栏下。如果用人力来做的话,人力成本高、效率低。那么随着我来一起搞一个便宜的AI助手吧。

步骤一:

点击进入:EasyDL网址
进入EasyDL主页,点击立即使用
在这里插入图片描述

步骤二:

选择单标签(说明:因为每篇文章需推送到一个专栏而非多个,因此,文章标题与专栏是一一对应关系,即每篇文章仅打上一个专栏的标签即可)
在这里插入图片描述

步骤三:

数据准备

  1. 明确需要发布的专栏名称。在该汽车资讯网站中,专栏包括汽车改装、新车测评、自驾游记、买车中心。
  2. 针对各个专栏名称,收集该专栏下的常见推文标题,一个专栏下收集30-50个标题名称。例如,自驾游记专栏对应的标题:二月最后一个周末带我的Q7京西游,汽车改装专栏对应的标题:自己动手改房车大功告成。
  3. 形成可上传到EasyDL进行训练的数据,您可以导入原始数据后使用EasyDL的标注工具完成标注,这里的原始数据要求为:Excel/txt的单列数据(如下图):

image.png

点击【导入】选择【未标注】数据完成后,点击【标注】通过平台内置的文本分类标注完成快速标注,标签即为专栏名称,一个标题打上一个标签即可,如下图:

image.png

也可以先将训练数据处理好后再上传到EasyDL。如果您是将训的训练数据,上传后即可发起训练,如下图:

image.png

提示:如果您上传原始数据,也可通过平台内置的标注工具进行快速标注,如下图:

image.png

在标注量较大的情况下,您可以开启上图右上角的智能标注功能,您只需要标注30%的文本,剩余的70%文本平台为自动打上标签,提高您的标注效率。

步骤四

模型训练
当您的数据准备完成后,您可以点击先点击【创建模型】完成模型创建后,点击【训练模型】启动训练。 考虑到资讯场景下的常见应用情况,最常见的集成方式是在企业的APP或者网站上集成在线API,该种方式对企业来说,仅需要将在线接口http接口结合授权的ak、sk输入到自己的业务程序中即可运行,同时,可以借助公有云灵活的弹性扩缩容机机制,根据实际调用量调整接口调用份额,减少模型调用费用,如下图:
在这里插入图片描述

选择算法时,在对时延没有特殊要求的情况下,建议您可以使用高精度算法进行训练,优势是可以使用较少的数据集也能获得高精度效果。 在选择筛选指标时,如没有特殊要求,也可以默认选择精度和召回平衡的策略,使用平台默认值即可。 为测试平台模型效果,您可以选择开启自定义测试集,即测试集为不同于训练集的数据,您可以在该数据集下看模型效果,如不开启,则平台会自动将训练数据中抽出部分数据作为测试集展示模型效果。

步骤五

模型部署
模型训练完毕后,如您对模型效果满意,可以选择公有云部署,在接口地址中输入自定义名称,如下图:

image.png

完成申请提交后,点击在线服务,即通过审核的该条服务会展示在您的在线服务列表中,您可以点击服务详情,获取http地址,为保证您接口调用时的安全性、保密性,请您按照操作指引,前往控制台完成应用创建,即可获取对应的接口AK、SK,保证调用授权,如下图:

image.png

image.png

步骤六

效果优化
当模型训练完毕后,可通过模型评估报告查看效果,从报告中四个标签的训练精度表现看,新车评测、买车中心的准确率较低,如下图:

image.png

追溯原因,在前期数据准备时,该两个标签的数据量过少。例如,下图中买车中心仅有15条数据,所以,需要对该标签下的数据进行补充,同时,在买车中心下,发现标题有两种不同的风格,每个风格的数据仅有10条也会影响训练精度,因此,扣充的粒度是买车中心标签下每个风格标题的数据量进行扩充,至少保证30-50条。

总结

如上几步就可以让你快速拥有一个自己的AI助手,还不快来动动你的小手么。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
百度AI开放平台、百度BML和百度EasyDL的核心价值可以概括如下: 1. 百度AI开放平台的核心价值在于提供一站式的人工智能服务。它集成了百度在语音识别、图像识别、自然语言处理等领域的技术能力,为开发者和企业提供了丰富的AI功能模块和解决方案。通过提供API接口和SDK,它使得开发者能够快速、便捷地集成人工智能能力到自己的应用中,从而提升应用的智能化水平。 2. 百度BML的核心价值在于提供多样化的机器学习框架和强大的分布式计算能力。它支持多种机器学习框架,如PaddlePaddle、TensorFlow等,为机器学习开发者和研究人员提供了丰富的选择。同时,BML具备强大的分布式计算能力,能够处理大规模数据集和复杂模型训练,加速训练过程并提高处理能力。这使得开发者能够更灵活、高效地进行机器学习模型的开发和训练。 3. 百度EasyDL的核心价值在于提供简单易用的图像识别平台。它为普通用户和非技术背景的开发者提供了一种无需编写代码即可完成模型训练和部署的解决方案。用户可以通过上传样本数据进行训练,并将训练好的模型部署到自己的应用中,实现图像识别功能。EasyDL的核心价值在于降低了使用门槛,使更多的人能够轻松地利用人工智能技术进行图像识别应用的开发。 总之,百度AI开放平台、百度BML和百度EasyDL的核心价值在于为用户提供全面的人工智能服务、多样化的机器学习框架和强大的分布式计算能力、简单易用的图像识别平台,帮助用户快速应用人工智能技术,提升应用的智能化水平。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二蛋和他的大花

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值