最近发现了一个全功能AI开发平台,叫做BML(Baidu Machine Learning),这是一个面向企业和个人开发者的机器学习集成开发环境,为经典机器学习和深度学习提供了从数据处理、模型训练、模型管理到模型推理的全生命周期管理服务。
BML全功能AI开发平台官网链接:https://ai.baidu.com/bml/
最近找到了一个短文本相似度数据集,同时也是刚刚了解到BML(Baidu Machine Learning)这个平台,就想用这个平台实验一下短文本相似度任务,于是就开始我们的入坑之旅。具体开发流程如下:
一、准备开始
在BML平台上点击"立即使用",即将进行我们的短文本相似度任务。
二、新建数据集
数据在人工智能项目开发的过程中起着至关重要的作用,数据的好坏通常也决定着最终的模型效果。
这里我使用的是AI Studio上的公开数据集:https://aistudio.baidu.com/aistudio/datasetdetail/96020
在BML平台上点击“数据集”,进入填加数据集界面:
在添加数据集界面上点击“创建数据集”,填写数据集名称等操作,并根据自己的场景选择一下数据类型以及标注类型:
点击“完成”后,会在下方看到刚刚新建的数据集:
点击“导入”,将刚刚下载下来的数据集导进来(这个数据是已经标注好的,所以直接导入即可)
我导入的数据格式是这样的:
其中baidu_train.txt有20000条数据。
这里我们选择了使用TXT的方式进行上传,并且我们的数据集有标注信息,所以这里我们选择有标注信息。
导入后,点击“确认并返回”
导入数据需要一定的时间,而且导入完成后可以选择给你的手机发一条短信,这个功能真的太贴心啦!
经过短暂的等待之后,数据终于导入完毕了,这时候我们发现数据集的数量没有对上。
这里大家也不要担心,数据变少的原因是平台把重复数据给去除了,去重操作在你"新建数据集"的时候是自己进行选择的。
"导入数据集"完毕之后,我们要检查一下标注是不是为100%。
我这里显示为百分之99%,这时候我们点击标注,进去查看一下原因。
我们可以看到,无标注信息的有一个。
经过检查发现是我们的title,在这里我们将他进行删除。
这时候我们数据集的操作就已经创建完毕了。
三、新建一个项目
首先打开BML管理页面,在这个界面中可以看到当前支持的深度学习任务类型,也可在左侧目录选择不同深度学习方向。
在左侧目录中找到“自然语言处理模型”,点击“短文本相似度”,写个名称加段描述就能新建一个项目了。
点击“新建”后,可以在下方找到刚刚创建的项目:
点击“新建任务”可管理本项目的“基本信息”、“配置任务类型”、“添加数据”、“配置网络”等。
四、导入数据集
将第一步创建的数据集导入:
直接选择即可。
五、配置网络
在配置网络的过程中,可以选择使用预训练模型ERNIE2.0对应的三个版本:ERNIE2.0_Base、ERNIE2.0_Large和ERNIE2.0_Tiny,我这里使用性能均衡的预训练模型:
平台提供了脚本编辑的工具,点击“立即编辑”进行脚本编辑:
一般可以在里面配置一些参数,有能力的开发者可以尝试修改里面的网络。
六、配置资源
训练模型需要租用服务器,BML平台直接提供了一个配置好的环境,不需要自己买服务器,然后自己配置环境了,可以说是非常地方便!
这里根据自己的需求选择即可。
点击“提交训练任务”就可以开始训练啦:
训练过程中还能看到训练日志:
当你觉得看log枯燥无味的时候,BML也为你提供了可视化展示:
为大家清晰的展示我们的训练过程~,真的是太棒了!
"训练结束"后还能出一份评估报告:
当你有事外出的时候,训练完成之后也可以给你发送短信,这里自己进行选择。
有一说一,这平台我可太喜欢啦!
七、模型校验
第一步:点击"模型校验"
第二步:点击“启动模型校验”:
第三步:等待启动成功,并测试模型
至此,模型校验就完成啦!
八、总结
从模型开发的时间上看,还是很快的,我平时通过纯代码的方式开发模型至少需要半天及以上的时间,但使用BML平台,只需要大概1~2个小时的时间就能搞定,如果熟练操作的话,应该还能更快,真正实现了0代码的可视化操作,在不改动超参数的情况下,代码都不用看都可以进行训练,真的是太帅了。
另一方面,从易用性上,只要把数据准备好,剩下的都是手动配置的事了,就算你不懂Python,不懂人工智能也完全可以开发出一套模型,因此,对于BML(Baidu Machine Learning)平台对于没有基础的同学是非常友好的!
本次短文本相似度任务到这里就结束了,你还没心动吗?还不赶紧去试试!