Hugging Face
愚昧之山绝望之谷开悟之坡
人工智能智慧城市元宇宙pf,无无明亦无无明尽
展开
-
什么是RS文件?.rs
用Rust(一种用于开发大规模,高性能应用程序的编程语言)编写的开发人员文件; 使用语言结构来帮助开发人员避免常见的编程错误,例如缓冲区溢出或缺乏类型安全性。RS文件可以用 锈,Rust编译器,然后在目标平台上作为程序运行。...原创 2021-11-02 10:10:25 · 4706 阅读 · 0 评论 -
HuggingFace代码本地运行报错ConnectionError: Couldn‘t reach https://raw.githubuserc
raw_datasets = load_dataset("glue", data_args.task_name, cache_dir=model_args.cache_dir) metric = load_metric("glue", data_args.task_name)解决方案1、下载glue.py到本地2、然后加载本地的这个文件数据处理把文件直接下载,改成本地加载文件评估函数缺什么文件就直接本地加载什么文件,找到好对应的目录文件可以看到已经下载如果模型文件本地代码原创 2021-10-31 20:41:10 · 11599 阅读 · 5 评论 -
HuggingFace colab运行
hugging face的案例要求最新的开发版本,但是还没发布,直接下载开发中最新工程版本1 linux :`pip install git+https://github.com/huggingface/transformers`2 windows10:把工程下载到本地,然后一键安装即可git clone https://github.com/huggingface/transformers.gitcd transformerspip install -e .3路径问题直接在colab上.原创 2021-10-31 20:35:14 · 1493 阅读 · 0 评论 -
Fine-tuning with custom datasets
数据集划分灵活运用机器学习的方式没技术含量,就是会就会不会就不会,这些就是通用的知识点,多积累原创 2021-10-17 12:58:14 · 132 阅读 · 0 评论 -
huggingface tokenizer一次性转换和分布转换
原创 2021-10-09 19:25:36 · 307 阅读 · 0 评论 -
PaddlePadde和Hugging Face转换输入文本的区别
1文本转id2构造偏函数后单独填充3paddlepaddle是通过这种方式转换成tensor,文本特征话的时候,返回的是dict,dict里面的listhuggingface通过这种方式转换,在参数里面可配置的方式,一步到位原创 2021-10-04 10:02:06 · 300 阅读 · 0 评论 -
Preprocessing data 记住
学会里面的原理,举一反三直接看原始的api文档,是最简单最纯最迅速最准确的方法原理化规则化,明确数据流,数据类型的转换和走向即可POS词性标注一、原始文本输入分词二、已经分好词的输入输入的是字符串或者一维列表或者多维列表输出的是字典,字典的value可以是一维列表或者多维列表或者tensor向量...原创 2021-10-02 20:46:16 · 71 阅读 · 0 评论 -
Summary of the tasks
特点任务的模型和预训练模型,就是在接特定任务的网络结构是训练好的,初始的预训练模型,输出的这部分结构的网络参数是随机初始化的没有什么神圣的,就是各种数据类型的相互组合,和相互转换。python类型,列表,元祖,字典numpy类型pandas 序列(Series)和数据框(DataFrame)pt tf pd 张量类型 tensor明确各种数据结构的性质,增删查改,各种数据结构之间的转换,这就是算法的本质pytorch可以tensor直接转换成listtf需要转换成numpy给提示.原创 2021-09-28 21:17:34 · 85 阅读 · 0 评论 -
hugging_face_notebook_1_Quicktour of the library
1 后台默认模型2 后台指定模型3 加载后台或者本地模型4 tokenizer的输入输出5 model的输入输出5 增在label的model的输入输出6 可以指定模型的输出参数7 可以在模型的类名直接指定模型的具体类型8 更改模型结构,从头开始训练 配置config文件9 配置超参数,不需要从头开始训练...原创 2021-09-26 17:02:33 · 63 阅读 · 0 评论 -
hugging face dataset使用和查看
框起来的红框框可以查看数据集的github链接和对应的文档,具体的数据集可以在github上下载原创 2021-09-26 14:37:27 · 893 阅读 · 0 评论 -
hugging face丰富的案例Transformers Notebooks/Community
hugging face丰富的案例Transformers Notebooks/Community原创 2021-09-17 10:39:40 · 99 阅读 · 0 评论 -
Preprocessing data
cd ~/.cache/huggingface/transformers会自动添加特殊符号这里还会增加个特殊符号 padding逗号分割代表两个句子解码回复一目了然返回的是普通的字典类型,还是字典里面是tensor类型,都是可以自定义可配置的这些参数都是可配置的输入之前做分词也是可以的...原创 2021-09-16 11:12:02 · 94 阅读 · 0 评论 -
Summary of the tasks
方法一、pipeline方法二、a model and a tokenizer不管是tf还是pt,为了兼容batchsize数据的操作,里面的数组一定是两维的,即使只有一个数据也是两维,所以去里面的数据都要有索引阅读理解,无非就是每个字符都分成两类,分别属于答案开始和答案结束的概率为多少,去最大的。T5已经有第四范式的味道了,转换成生成任务,在输入部分添加个提示即可。...原创 2021-09-14 20:27:39 · 88 阅读 · 0 评论 -
Flax、JAX
JAX是tensorflow的简化库,也是一种深度学习框架JAX简单的说就是GPU加速、支持自动微分(autodiff)的numpyFlax是基于JAX上构建的原创 2021-09-13 17:48:32 · 843 阅读 · 0 评论 -
tokenizers in Transformers:BPE、WordPiece,SentencePiece
目录1. space、punctuation、rule-based tokenization2. Subword tokenization2.1 Byte-Pair Encoding (BPE)Byte-level BPE2.2 WordPiece2.3 Unigram2.4 SentencePiece:ALBERT,XLNet,Marian和T5tokenizing a text是将文本分为words或subwords,然后通过look-up table将其转换为ID。我们将研究Tra.原创 2021-09-13 17:26:38 · 557 阅读 · 0 评论 -
1-Quick tour
方式一,在线直接加载一键预测方式二,本地加载微调和预训练的模式数据格式都需要保持一致方式三,微调tokenizer有这个字段配置,会返回确定相应的是字典格式的还是张量格式的两种可选分词有很多种方式,然后转换成id,再转换成tensor张量在huggingface TF模型和pytorch模型可以互相加载转换,保存哪种格式都可以内部兼容auto只是根据参数,自动找到那个类名而已通过配置文件,模型从头开始训练,tokenizer直接加载预训练好的更改其他一些简单的配原创 2021-09-13 15:05:17 · 194 阅读 · 0 评论 -
详解Transformer-XL
序列模型捕获数据长期依赖的能力在任何NLP任务中都是至关重要的,LSTM通过引进门机制将RNN的长期依赖的捕获能力提升到200个左右,Transformer的提出则进一步提升了获长期依赖的能力,但是Transformer的捕获长期依赖的能力是无限长的吗?如果有一个需要捕获几千个时间片的能力的模型才能完成的任务,Transformer能够胜任吗?答案从目前Transformer的设计来看,它还是做不到。这篇文章介绍的Transformer-XL(extra long)则是为了进一步提升Transformer原创 2021-08-27 11:45:02 · 408 阅读 · 0 评论 -
ERNIE-Doc自己的理解
以这个图为核心,两个点:第一点:是增强的循环机制,借鉴transformer-xl但是不是取输入,是直接去上一时刻下一次的输出,直接把视野扩大了,能支持更大的长度第二点:回溯的喂入机制,一个doc输入两次,类似第一次粗读,第二次精读,让输出直接感看到了上下文的信息,借鉴xlnet的思想...原创 2021-08-27 11:44:28 · 579 阅读 · 2 评论 -
Colab使用
注意添加!,直接运行即可不能在文件夹上直接删除,指令通过指令删除即可原创 2021-08-24 17:34:57 · 219 阅读 · 0 评论 -
Colab使用方式
通过这种方式就相当于自己的私人硬盘存储空间,每次都可以直接调用。类别Aistudio就是没有个命令行窗口,其他的都是一样的。非常方便去训练模型。原创 2021-08-21 20:54:20 · 177 阅读 · 0 评论 -
Colab/AiStudio/GitHub/PaddlePaddle/Pytorch/Tensorflow/Hugging Face
所有的包和案例和文档都在GitHub,例如Hugging_Face\transformers\notebooks\README.md,所有案列都可以在Colab运行,防止Colab断开,添加一个拆件Colab Auto Reconnect即可,包括GitHub加速插件等等,都是些技巧PaddlePaddle配合AiStudioPytorch/Tensorflow配合Hugging Face配合Colab都彻底的玩转起来和掌握起来...原创 2021-08-21 13:10:23 · 251 阅读 · 0 评论 -
Huggingface、fast-bert、FARM、pytext、spaCy自然语言处理建模框架
Huggingface(抱抱脸)总部位于纽约,是一家专注于自然语言处理、人工智能和分布式系统的创业公司。他们所提供的聊天机器人技术一直颇受欢迎,但更出名的是他们在NLP开源社区上的贡献。Huggingface一直致力于自然语言处理NLP技术的平民化(democratize),希望每个人都能用上最先进(SOTA, state-of-the-art)的NLP技术,而非困窘于训练资源的匮乏。几个和Transformers有着类似使命的自然语言处理建模框架。fast-bert,Super easy librar原创 2021-08-18 17:01:38 · 409 阅读 · 0 评论 -
Huggingface简介及BERT代码浅析
本文为预训练语言模型专题系列第六篇快速传送门[萌芽时代],[风起云涌],[文本分类通用技巧],[GPT家族],[BERT来临]感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理,我们将沿此脉络前行,探索预训练语言模型的前沿技术,红色框为已介绍的文章。本期的内容是结合Huggingface的Transformers代码,来进一步了解下BERT的pytorch实现,欢迎大家留言讨论交流。Hugging face 简介Hugging face 是一家总部位于纽约的聊天机器人初创服务商,开发的应用在青少年中原创 2021-08-18 16:15:05 · 1797 阅读 · 0 评论