paddlenlp使用过程中遇见和解决的bug

本文记录我在解决paddlenlp微调模型中的各种问题。

1、环境设置

使用anaconda建设虚拟环境:

在Anaconda Prompt (anaconda3)的anaconda自带命令窗口中去创建虚拟环境:

conda create -n my_paddlenlp python=3.9 

进入创建的虚拟环境:

conda activate my_paddlenlp

下载paddlelp需要的相关库:

pip install  paddlenlp

paddlepaddle >= 2.3

python >= 3.7

下载标注库label-studio:

pip install label-studio

2、进行对原始图片的标注工作。

打开anaconda prompt窗口输入:

conda activate my_paddlenlp

进入之前创建的虚拟环境,然后输入:

label-studio start

会打开标注网页,第一次进入网页时需要注册一下,以后会自动进入的。

在项目链接:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction

官方文档对标注流程讲的比较清楚了。

需要在进入了虚拟环境的命令行窗口中cd 到label_studio.py所在文件夹下才能进行之后的步骤。

ext抽取:

python label_studio.py --label_studio_file ./document/data/label_studio.json --save_dir ./document/data --splits 0.8 0.1 0.1 --task_type ext

注意:两种标注方法不能同时在一张图片里存在,否则会在后续导出数据转换中报错:

IndexError: list index out of range

如果报错:...not exist...

则需注意label_studio.json和存储原始图片的images文档在文本中的位置,需要与官方文档中的位置一致。

用于标注的图片,命名时不要带有中文,否则在label_studio.py进行数据转换时也会报上述的not exist (无法导入图片)的错误。

小样本训练时,尽量多提供样本数量。由样本数10到样本数40,最开始200次训练中准确率由0.5提升到了0.8左右,在百数量级的样本数训练效果可能更好。

3、对paddlenlp进行本地部署时,遇到的问题。

再进行本地部署时,由于paddelnlp已经打通本地部署流程,基本上按照官方文档就不存在问题。

这个部分可以用https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction/document/deploy/simple_serving
结合PaddleNLP-develop\docs\server.md进行部署,教程讲的很清楚了。

注意:

需要在github上将整个paddlenlp项目进行下载,再在下载后解压的文件夹中找到:

PaddleNLP-develop\applications\information_extraction\document\deploy\simple_serving

之后的流程在命令行运行时,要在此文件夹下。

server启动:

注意:在启动前,进入server.py文件将schema中的数据进行替换,替换为自训练模型标记时所用到的相应的schema的值。

paddlenlp server server:app --workers 1 --host 0.0.0.0 --port 8189

ip地址按照教程一般弄成0.0.0.0也能运行,可是我在之后的client.py的运行时会报错:检查的ip地址错误,可查找本机ip地址进行替换。

查找本地ip地址流程:

win + R  后输入  cmd  启动命令行  后输入   ipconfig   回车后进行查找。

将查找到的ip地址对0.0.0.0进行替换,然后再进行server启动。

server启动成功后注意不要关闭命令行窗口,需要新开一个命令行窗口进行操作。

打开新命令行窗口,进入运行server的环境,再对simple_serving文件夹下的client.py文件进行修改:

将  image_paths 的地址修改为自己想要检测的图片。

将url的地址值中的0.0.0.0修改为之前替换的本机地址值(如果前面没有替换则不用进行修改)

保存修改的文件后,再新开的命令行中cd到simple_serving文件夹下,执行命令:

python cilent.py 

等待结果输出即可。

  • 13
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值