PaddleNLP的应用

Ability Liao

已于 2024-02-05 11:58:35 修改

阅读量1.2k

点赞数 10

分类专栏：大模型文章标签： paddleNLP 自然语言处理 python

于 2024-01-29 20:11:17 首次发布

本文链接：https://blog.csdn.net/J_bean/article/details/135919852

版权

大模型专栏收录该内容

2 篇文章

订阅专栏

1 介绍

PaddleNLP是一个基于PaddlePaddle框架的自然语言处理（NLP）工具库。

它提供了一系列用于文本处理、文本分类、情感分析、文本生成等任务的预训练模型、模型组件和工具函数。

PaddleNLP有统一的应用范式：通过 paddlenlp.Taskflow 调用，简捷易用。

2 安装

2.1 安装依赖包

pip install python==3.8.10 -i https://mirror.baidu.com/pypi/simple
pip install paddlepaddle==2.4.2 -i https://mirror.baidu.com/pypi/simple
pip install paddlenlp==2.5.2 -i https://mirror.baidu.com/pypi/simple


pip install opencv-python -i https://mirror.baidu.com/pypi/simple
pip install paddleocr -i https://mirror.baidu.com/pypi/simple

pip install --upgrade opencv-python
pip install --upgrade paddlenlp
pip install --upgrade paddleocr

2.2 验证是否安装成功

执行python命令，未报错则代表安装成功

import paddle
paddle.utils.run_check()

2.3 问题排查

（1）执行时如果报错 ModuleNotFoundError: No module named ‘paddle.nn.layer.layers‘，则再次执行以下安装命令

pip install paddlenlp==2.5.2 -i https://mirror.baidu.com/pypi/simple

3 使用

3.1 中文分词

from paddlenlp import Taskflow

# （1）默认模式-实体粒度分词，在精度和速度上的权衡，基于百度LAC
seg = Taskflow("word_segmentation")
print(seg("PaddleNLP是一个基于PaddlePaddle深度学习平台的自然语言处理工具库"))

# 结果：['PaddleNLP', '是', '一个', '基于', 'PaddlePaddle', '深度', '学习', '平台', '的', '自然语言处理', '工具', '库']


# （2）指定模式-粗粒度分词，速度更快，基于jieba
seg = Taskflow("word_segmentation", mode="fast")
print(seg("PaddleNLP是一个基于PaddlePaddle深度学习平台的自然语言处理工具库"))

# 结果：['PaddleNLP', '是', '一个', '基于', 'PaddlePaddle', '深度', '学习', '平台', '的', '自然语言', '处理', '工具', '库']


# （3）精确模式-最准：实体粒度切分准确度最高，基于百度解语
seg_accurate = Taskflow("word_segmentation", mode="accurate")
print(seg_accurate("PaddleNLP是一个基于PaddlePaddle深度学习平台的自然语言处理工具库"))

# 结果：['PaddleNLP', '是', '一个', '基于', 'Paddle', 'Paddle', '深度学习平台', '的', '自然', '语言处理工具库']


# （4）批量处理——平均速度更快
print(seg(["PaddleNLP是一个基于PaddlePaddle深度学习平台的自然语言处理工具库",
           "它提供了一系列用于文本处理、文本分类等任务的预训练模型、模型组件和工具函数"]))

# 结果：[['PaddleNLP', '是', '一个', '基于', 'PaddlePaddle', '深度', '学习', '平台', '的', '自然语言', '处理', '工具', '库'], ['它', '提供', '了', '一系列', '用于', '文本处理', '、', '文本', '分类', '等', '任务', '的', '预', '训练', '模型', '、', '模型', '组件', '和', '工具', '函数']]