python的自带数据集_盘点 | Python自带的那些数据集

本文介绍了Python中Seaborn和Scikit-learn库自带的数据集,包括如何加载泰坦尼克号和鸢尾花数据,以及20个新闻组的大型数据集。此外,还列举了其他数据源如UCL机器学习数据库、Weka数据集等。
摘要由CSDN通过智能技术生成

01

Seaborn自带数据集

在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提供的函数load_dataset("数据集名称")来获取线上相应的数据,返回给我们的是一个pandas的DataFrame对象。

import seaborn as sns

df = sns.load_dataset('titanic')

df.sample(5)

aeee1bf11621ea0f9dacec3ec33a5154.png

返回的DataFrame对象非常便于我们更加深入地了解数据,示例代码:

df = sns.load_dataset("tips")

print("

[数据集基本信息]

")

print(df.info())

print("

[数值变量信息]

")

print(df.describe())

print("

[离散变量信息]

")

for name in df.dtypes[(df.dtypes == "category") | (df.dtypes == "object")].index:

print("{} 特征值 : 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值