12-21数据增强与数据集寻找方法

最新推荐文章于 2025-03-10 22:19:16 发布

「已注销」

最新推荐文章于 2025-03-10 22:19:16 发布

阅读量190

点赞数 1

文章标签：深度学习 pytorch

原文链接：https://blog.csdn.net/jacke121/article/details/107966202?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7Edefault-2.highlightwordscore&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7

版权

数据集寻找方法：

Google 数据集

谷歌为数据集专门开发的搜索系统，20年初就已经覆盖2500万的数据集。界面也非常简洁，输入关键词即可返回相对应的数据集描述，如下。

链接：https://datasetsearch.research.google.com/

Huggingface数据集

NLP界网红抱抱脸家的数据集，主要是自然语言处理方面的数据。支持使用python直接调取，譬如squad_dataset = load_datasets("squad")。

链接1：https://github.com/huggingface/datasets

链接2：https://huggingface.co/datasets

Kaggle 数据集

Kaggle大家再熟悉不过了，比赛平台自然少不了数据啦。

链接：https://www.kaggle.com/datasets

Paper With Code 数据集

4075个机器学习相关数据集，相比于其他平台的优势是会将数据集和相应领域的paper和benchmark对应在一起。

链接：https://www.paperswithcode.com/datasets

Reddit 数据集

Reddit是国外热门论坛，在dataset板块，可以搜索数据集。相比于其他平台不同的是，可以与其他人针对数据集一起讨论。

链接：https://www.reddit.com/r/datasets/

CLUE 数据集

虽然上述平台也会涵盖中文的数据集，但是可能并不全面。CLUE组织专门针对中文NLP数据搭建了一个平台，同时开源了许多中文大规模数据和预训练模型，点赞！！

链接：https://www.cluebenchmarks.com/dataSet_search.html

以上几个数据集是我自己平时使用效果比较好的，如果还没找到你想要的数据，再提供几个可以尝试：

https://www.datasetlist.com/

https://github.com/awesomedata/awesome-public-datasets

https://tinyletter.com/data-is-plural

https://jupyter-tutorial.readthedocs.io/en/latest/data/index.html

https://www.openml.org/search?type=data

https://github.com/InsaneLife/ChineseNLPCorpus

数据增强

from PIL import Image

img1 = Image.open("rabbit.jpg")
img1 = img1.convert('RGBA')

img2 = Image.open("simao.jpg")
img2 = img2.convert('RGBA')
# resize to size of img1
img2 = img2.resize(img1.size)
print(img2.size)

img = Image.blend(img1, img2, 0.2)
img.show()
img.save("blend.jpg")