Huggingface开源模型使用学习

最新推荐文章于 2024-08-31 08:02:30 发布

Quinn-ntmy

最新推荐文章于 2024-08-31 08:02:30 发布

阅读量652

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_43421371/article/details/124826674

版权

1、Tokenizer

词表一致！
使用的tokenizer必须和对应的模型在预训练时的tokenizer保持一致。
可以直接指定模型的checkpoint的名字，然后自动下载对应词表。
使用方法：

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(XXX)  # XXX为想要使用的模型

tokenizer()的主要参数包括：

（1）text：可以是单条的string，也可以是一个string的list，还可以是list的list；
（2）paddiing：用于填补，padding=True 可以使得到的序列长度对齐；
（3）truncation：用于截断，令truncation=True，序列将在max_length处截断；
（4）max_length：设置最大句长；
（5）return_tensors：设置返回数据类型，pt 为 pytorch，tf 为 tensorflow。

2、Model

方法同上：

from transformers import AutoModel
model = AutoModel.from_pretrained(XXX)  # XXX为想要使用的模型

导入模型后，其接受tokenizer的输入，输出hidden states（即文本的向量表示），是一种上下文表示。
hidden states有三个维度：
（1）batch size
（2）sequence length
（3）hidden size

Quinn-ntmy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Huggingface开源模型使用学习

导入模型后，其接受tokenizer的输入，输出hidden states（即文本的向量表示），是一种上下文表示。：可以是单条的string，也可以是一个string的list，还可以是list的list；：用于截断，令truncation=True，序列将在max_length处截断；使用的tokenizer必须和对应的模型在预训练时的tokenizer保持一致。可以直接指定模型的checkpoint的名字，然后自动下载对应词表。：用于填补，padding=True 可以使得到的序列长度对齐；
复制链接

扫一扫