机器学习数据集

前言

数据集算是比较重要的学习资料了吧,在这里汇总一些好用的数据集以便使用,
关于一些内容可以参考一下知乎的提问

UCI常用数据集

UCI 一个不错的数据集下载网站
此处介绍几个点击;想比较高的数据集,后面有下载和存储的代码以及有关问题的说明.

使用方式

点击官方网站,你可以看到以下内容
UCI官网截图
可以看到右边有两个排行榜,最右边的是历史点击率的排行榜,位于该榜左边的也就是网页中间的是最新捐赠的数据集排行.我上传的截图与实际内容不同的地方在于,官网是英文.

点击数据集链接,比如鸢尾花数据集,之后你看到的将是:
UCI 鸢尾花数据集
谷歌翻译不怎么好使…把鸢尾花翻译为了虹膜…点进去之后你会看到相应的内容,比如数据及特点-多元,实例数量-150,相关任务-分类,属性数量-4等,在页面下面还有更详细的内容.

下载目录则在上面 的截图的 “下载:数据集文件夹”,点进去就好

关于下载

关于下载的话,建议不直接下载,而是使用以下代码下载:

def ReadAndSaveDataByPandas(target_url = None,save=False):
    wine = pd.read_csv(target_url, header=0, sep=";")
    if save == True:
        wine.to_csv("/home/fonttian/Data/UCI/Glass/glass.csv", index=False)
        
target_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/glass/glass.data" # 一个玻璃的多分类的数据集
ReadAndSaveDataByPandas(target_url,True)   

注意:使用pandas下载数据集主要优点在于,格式会好一些,最起码比直接用代码下载或者直接浏览器下载少了很多数据清洗工作,但是有时候下载的数据,每一行都会被""包括,导致一些识别的问题,excel打开的话会有点麻烦,所以最好不要觉得pandas下载之后就完全不需要处理数据格式问题了,最好还是打开看看

一些数据源

# target_url = ("http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv") # 红酒质量数据集,回归(也可以多分类)
target_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/glass/glass.data" # 玻璃种类数据集-多分类
# target_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data" # 鲍鱼数据集-回归(多分类)

'''
http://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data # 汽车-多分类-来源于决策模型
http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data # 红酒数据集-三种红酒的起源分类数据集
http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data # 鸢尾花数据集-分类问题
http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data # 人口收入普查数据集-多分类(可转换->回归数据集)
http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data # 威斯康星州乳腺癌诊断数据库-分类
上一个数据集最好注意描述-http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29
http://archive.ics.uci.edu/ml/machine-learning-databases/00265/CASP.csv # 蛋白质理化性质-回归问题
上一个数据集最好注意描述-http://archive.ics.uci.edu/ml/datasets/Physicochemical+Properties+of+Protein+Tertiary+Structure
'''

更多的数据集,请点击这里:UCI全部数据集查询目录

sklearn中的数据集

参考页面:apachecn-sklearn中文文档文档-加载数据工具
几个比较常用的数据集,直接参考文档即可.
比如:鸢尾花(分类),威斯康星洲乳腺癌数据集(分类),波士顿房价(回归),糖尿病人(回归)等等…

同时sklearn还提供了一些较大规模的数据集,可以在必要时下载.或者使用sklearn数据生成工具,生成自己需要额数据集亦可.详情请参考上面的链接。

  • 7
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Font Tian

写的很好,请给我钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值