问题介绍:
我们在kaggle中下载数据集非常慢,响应都要响应半天,笔者也是深受其扰,通过查阅外网大佬的方法,成功解决了这一问题,现在将解决方法详细说明如下,分享给遇到同样困扰的小伙伴。
这个方法主要是通过jupyter来快速将kaggle的数据集下载到本地,这里假设大家都已经安装好了jupyter了
1.生成Kaggle Token
首先需要安装两个包:
pip install opendatasets
pip install pandas
安装完成后,进入kaggle网站,点击头像然后点击 setting
然后进入setting界面,在API下面点击 Creat new token
点击完毕后将会自动下载一个 json文件,里面有你后面要用的用户名和密码
2. 在Jupyter中下载kaggle数据集
然后就可以愉快的在jupyter中下载kaggle数据集了。导入刚才下载的包,然后将数据集的url复制到 download函数中:
import opendatasets as od
od.download('https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews?select=IMDB+Dataset.csv')
关于下载的数据集url,可以直接复制网页地址,也可以鼠标右键->复制链接地址
然后执行jupyter中的代码,这时候需要输入刚才下载的json文件中的用户名和密码:
等进度条跑完,数据集就成功下载到跟jupyter文件的同目录下了!
20+M的数据集大概下载了不到一分钟,速度又很大提升~~
创作不易,如果对你有帮助,还请点赞鼓励一下笔者哦~ 谢谢大噶!