一、HuggingFace 常用总结

最新推荐文章于 2025-03-20 22:11:39 发布

feifeiyechuan

最新推荐文章于 2025-03-20 22:11:39 发布

阅读量1.6k

点赞数

文章标签： HuggingFace huggingface transformers

本文链接：https://blog.csdn.net/feifeiyechuan/article/details/116047717

版权

这篇博客主要介绍了HuggingFace的datasets库，通过pip安装后，可以访问到656个不同的数据集。这些数据集涵盖了自然语言处理的多个领域，如新闻、问答、情绪分析等。通过`from datasets import list_datasets`即可获取全部数据集的列表。这是一个宝贵的资源库，对于NLP研究和应用开发者来说极具价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、datasets

1、常见数据

0）安装数据包

pip install datasets

1）参考链接

loading_datasets

2）获取方式

>>> from datasets import list_datasets
>>> datasets_list = list_datasets()
>>> len(datasets_list)
656
>>> print(', '.join(dataset for dataset in datasets_list))
aeslc, ag_news, ai2_arc, allocine, anli, arcd, art, billsum, blended_skill_talk, blimp, blog_authorship_corpus, bookcorpus, boolq, break_data,
c4, cfq, civil_comments, cmrc2018, cnn_dailymail, coarse_discourse, com_qa, commonsense_qa, compguesswhat, coqa, cornell_movie_dialog, cos_e,
cosmos_qa, crime_and_punish, csv, definite_pronoun_resolution, discofuse, docred, drop, eli5, empathetic_dialogues, eraser_multi_rc, esnli,
event2Mind, fever, flores, fquad, gap, germeval_14, ghomasHudson/cqc, gigaword, glue, hansards, hellaswag, hyperpartisan_news_detection,
imdb, jeopardy, json, k-halid/ar, kor_nli, lc_quad, lhoestq/c4, librispeech_lm, lm1b, math_dataset, math_qa, mlqa, movie_rationales,
multi_news, multi_nli, multi_nli_mismatch, mwsc, natural_questions, newsroom, openbookqa, opinosis, pandas, para_crawl, pg19, piaf, qa4mre,
qa_zre, qangaroo, qanta, qasc, quarel, quartz, quoref, race, reclor, reddit, reddit_tifu, rotten_tomatoes, scan, scicite, scientific_papers,
scifact, sciq, scitail, sentiment140, snli, social_i_qa, squad, squad_es, squad_it, squad_v1_pt, squad_v2, squadshifts, super_glue, ted_hrlr,
ted_multi, tiny_shakespeare, trivia_qa, tydiqa, ubuntu_dialogs_corpus, webis/tl_dr, wiki40b, wiki_dpr, wiki_qa, wiki_snippets, wiki_split,
wikihow, wikipedia, wikisql, wikitext, winogrande, wiqa, wmt14, wmt15, wmt16, wmt17, wmt18, wmt19, wmt_t2t, wnut_17, x_stance, xcopa, xnli,
xquad, xsum, xtreme, yelp_polarity