NLP-transformer学习:(1)transformer基础

NLP-transformer学习:(1)transformer基础


transformer 被应用的月来越广泛,这里开一片关于NLP 的 transformer 学习内容,作为更换学习对象,减少学习的枯燥性
相关课程其实是哔站上的视频课程,但是我这里将其实践,并融入自己的心得,代码地址如下:
https://github.com/MexWayne/mexwayne_transformers-code

学习内容:

  1. transformer 地址:
  2. transformer 基础知识:
  3. transformer 环境配置
  4. transformer 代码学习

1 transformer 地址:

transformer 目前已经被高度开发,大家用的最方便的包是这个 hugface的。
https://github.com/huggingface/transformers/blob/main/README_zh-hans.md

在这里插入图片描述

2 基础知识:

2.1 关键词汇

(1) sentiment-analysis 情感分析:分析给定的文本的情感极性
(2) text-generation 文本生成:根据给定的文本生成文本
(3) ner 命名实体识别:标记句子中的实体
(4) question-answering 阅读理解:给定上下文,根据上下文抽取答案
(5) fill-maks 掩码填充:天成给定文本的掩码
(6) summarization 文本摘要:
(7) translation 机器翻译:
(8) feature-extraction 特征提取:生成给定文本的张量表示
(9) conversional 对话机器人:根据用户输入文本,产生回应,与用户对话
这里有个干货网址:在用gpt翻译前可以用下:
https://blog.csdn.net/ChenVast/article/details/80719747

2.2 NLP的几个阶段

阶段1:统计模型+ 数据
example:决策树,SVM,HMM,CRF, TF-IDF,BOW
阶段2:神经网络 + 数据
example:Linear,CNN,RNN,LSTM,transformer,Word2vec, Glove
阶段3:神经网络 + 预训练模型 + (少量)数据
example:GPT,BERT,RoBERTa,ALBERT,BART,T5
阶段4:神经网络 + 更大的预训练模型 + Prompt
example:ChatGPT,Bloom,LLaMA,AIpaca,Vicuna,MOSS,文心一言,通义千问,星火(科大讯飞),KimiChat

2.3 transformer的几个重要的库

Transformers: 核心库,包含了模型加载/训练/流水线(pipline)
Tokenizer:分词器,对数据进行预处理,text(文本)到词素(token)序列的互相转换
Datasets:数据集,提供了数据的加载和处理方法,加载一些公开数据集
Evaluate:前向函数或评估函数,就是一般的前向推导
PEFT(parameter efficient tunning): 高效的微调模型库,提供高校的微调方法,训练一小部分参数去撬动打模型
Accelerate: 分布式训练,包括多卡方案
Optimum:加速优化库,主要是适配多种后端,例如Open Vino 或者 Onnxruntime
Gradio: 额可视化不书库,用于算法演示

2.4 做好的基础环境

链接是笔者做好的一个配置好相关pytorch环境的ubuntu conda环境:
笔者的GPU数量1:4070ti
在这里插入图片描述
基础配置好的pytorch conda环境:
在次基础上可以安装如下库:
pip install transformers
pip install datsets
pip install evalutate
pip install peft
pip install accelerate
pip install gradio
pip install optimum
pip install sentencepiece
注:笔者自己的电脑是从买各种水冷和显卡配置开始,如果有任何环境安装配置问题,欢迎交流

2.5 学习代码

# import gradio package 
import gradio as gr
# import transofrmer package
from transformers import pipeline
gr.Interface.from_pipeline(pipeline("question-answering", model="uer/roberta-base-chinese-extractive-qa")).launch()

小式牛刀:
在这里插入图片描述
注意:这里调用包时,需要能访问外网,笔者使用的搬瓦公,学习用足够,如果需要可以和笔者交流
在这里插入图片描述
运行成功后会显示一个网址,
在这里插入图片描述
对这个地址做:ctrl + 点击,可以打开链接如下图:
在context 中输入上下文,后尽情提问,于是得到transformer 的结果
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值