12-21数据增强与数据集寻找方法

数据集寻找方法:

Google 数据集

谷歌为数据集专门开发的搜索系统,20年初就已经覆盖2500万的数据集。界面也非常简洁,输入关键词即可返回相对应的数据集描述,如下。

  • 链接:https://datasetsearch.research.google.com/

Huggingface数据集

NLP界网红抱抱脸家的数据集,主要是自然语言处理方面的数据。支持使用python直接调取,譬如squad_dataset = load_datasets("squad")。

  • 链接1:https://github.com/huggingface/datasets

  • 链接2:https://huggingface.co/datasets

Kaggle 数据集

Kaggle大家再熟悉不过了,比赛平台自然少不了数据啦。

  • 链接:https://www.kaggle.com/datasets

Paper With Code 数据集

4075个机器学习相关数据集,相比于其他平台的优势是会将数据集和相应领域的paper和benchmark对应在一起。

  • 链接:https://www.paperswithcode.com/datasets

Reddit 数据集

Reddit是国外热门论坛,在dataset板块,可以搜索数据集。相比于其他平台不同的是,可以与其他人针对数据集一起讨论。

  • 链接:https://www.reddit.com/r/datasets/

CLUE 数据集

虽然上述平台也会涵盖中文的数据集,但是可能并不全面。CLUE组织专门针对中文NLP数据搭建了一个平台,同时开源了许多中文大规模数据和预训练模型,点赞!!

  • 链接:https://www.cluebenchmarks.com/dataSet_search.html

  • 以上几个数据集是我自己平时使用效果比较好的,如果还没找到你想要的数据,再提供几个可以尝试:

  • https://www.datasetlist.com/

  • https://github.com/awesomedata/awesome-public-datasets

  • https://tinyletter.com/data-is-plural

  • https://jupyter-tutorial.readthedocs.io/en/latest/data/index.html

  • https://www.openml.org/search?type=data

  • https://github.com/InsaneLife/ChineseNLPCorpus

数据增强

from PIL import Image

img1 = Image.open("rabbit.jpg")
img1 = img1.convert('RGBA')

img2 = Image.open("simao.jpg")
img2 = img2.convert('RGBA')
# resize to size of img1
img2 = img2.resize(img1.size)
print(img2.size)

img = Image.blend(img1, img2, 0.2)
img.show()
img.save("blend.jpg")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值