一、HuggingFace 常用总结

这篇博客主要介绍了HuggingFace的datasets库,通过pip安装后,可以访问到656个不同的数据集。这些数据集涵盖了自然语言处理的多个领域,如新闻、问答、情绪分析等。通过`from datasets import list_datasets`即可获取全部数据集的列表。这是一个宝贵的资源库,对于NLP研究和应用开发者来说极具价值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、datasets

1、常见数据

0)安装数据包

pip install datasets

1)参考链接

loading_datasets

2)获取方式

>>> from datasets import list_datasets
>>> datasets_list = list_datasets()
>>> len(datasets_list)
656
>>> print(', '.join(dataset for dataset in datasets_list))
aeslc, ag_news, ai2_arc, allocine, anli, arcd, art, billsum, blended_skill_talk, blimp, blog_authorship_corpus, bookcorpus, boolq, break_data,
c4, cfq, civil_comments, cmrc2018, cnn_dailymail, coarse_discourse, com_qa, commonsense_qa, compguesswhat, coqa, cornell_movie_dialog, cos_e,
cosmos_qa, crime_and_punish, csv, definite_pronoun_resolution, discofuse, docred, drop, eli5, empathetic_dialogues, eraser_multi_rc, esnli,
event2Mind, fever, flores, fquad, gap, germeval_14, ghomasHudson/cqc, gigaword, glue, hansards, hellaswag, hyperpartisan_news_detection,
imdb, jeopardy, json, k-halid/ar, kor_nli, lc_quad, lhoestq/c4, librispeech_lm, lm1b, math_dataset, math_qa, mlqa, movie_rationales,
multi_news, multi_nli, multi_nli_mismatch, mwsc, natural_questions, newsroom, openbookqa, opinosis, pandas, para_crawl, pg19, piaf, qa4mre,
qa_zre, qangaroo, qanta, qasc, quarel, quartz, quoref, race, reclor, reddit, reddit_tifu, rotten_tomatoes, scan, scicite, scientific_papers,
scifact, sciq, scitail, sentiment140, snli, social_i_qa, squad, squad_es, squad_it, squad_v1_pt, squad_v2, squadshifts, super_glue, ted_hrlr,
ted_multi, tiny_shakespeare, trivia_qa, tydiqa, ubuntu_dialogs_corpus, webis/tl_dr, wiki40b, wiki_dpr, wiki_qa, wiki_snippets, wiki_split,
wikihow, wikipedia, wikisql, wikitext, winogrande, wiqa, wmt14, wmt15, wmt16, wmt17, wmt18, wmt19, wmt_t2t, wnut_17, x_stance, xcopa, xnli,
xquad, xsum, xtreme, yelp_polarity
Hugging Face是个面向自然语言处理(NLP)任务的开源平台,它提供了丰富的内容,包括模型和数据集。Hugging Face的Transformer类库提供了系列预训练的Transformer模型,如BERT、GPT等,可以用于各种NLP任务。Hugging Face的Datasets类库则提供了各种常用的NLP数据集,方便用户进行数据处理和模型训练。 在使用Hugging Face时,有时我们可能需要训练自己的模型。这时,可以使用Hugging Face提供的预训练模型进行迁移学习。迁移学习是种通过在个任务上训练模型,然后将其应用于另个相关任务的方法。Hugging Face提供了便捷的工具和接口,使得迁移学习变得更加简单。 关于问题中的引用,在使用Python连接Hugging Face时,可能会遇到报错"requests.exceptions.ConnectionError: HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /api/models/bert-base-cased (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x7f2d791ce310>: Failed to establish a new connection: [Errno -2] Name or service not known'))"。这个错误通常是由于无法建立与Hugging Face服务器的连接所导致的。可能的原因包括网络问题、服务器故障或者访问限制。在遇到这样的报错时,可以尝试检查网络连接、重试连接或者联系Hugging Face的技术支持部门以获取更多帮助。 总结起来,Hugging Face是个提供NLP模型和数据集的开源平台,可以用于各种NLP任务。除了使用Hugging Face提供的模型和数据集外,还可以利用其进行迁移学习来训练自己的模型。在使用Hugging Face时,可能会遇到连接错误等问题,可以通过检查网络连接、重试连接或联系技术支持来解决。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值