机器学习笔记-快速了解数据集

本文介绍了在机器学习中如何快速了解数据集,包括使用pandas的head()、info()、value_counts()和describe()方法来查看数据结构,通过柱状图进行数据可视化,以及创建测试集的策略,如使用train_test_split()函数。同时,强调了数据探索的重要性,如在加利福尼亚房产数据集中利用地理信息进行可视化和关联分析。
摘要由CSDN通过智能技术生成

  我在另一篇博文中写到了用pandas中的read_csv()函数将csv格式的数据读取为pandas DataFrame对象,接下来就是要对读入的数据集快速的了解,来确定下一步用什么机器学习算法解决问题。常用的方法有下面几种:

快速查看数据结构

   使用DataFrame的head() 方法查看数据集的前5行,info()方法可以快速查看数据的描述,特别是总行数、每个属性的类型和非空值的数量,使用value_count()方法可以查看某一种属性的有哪些类别,且每个类别中有多少实例;使用describe()方法展示数值属性的概括。

   另一种快速了解数据结构的方法是画出每个数值属性的柱状图,柱状图的纵轴展示了特定范围内的实例的个数。可以一次给一个属性画图,或者对于完整的数据集调用hist()方法,后者会画出每个属性的柱状图。代码如下:

import matplotlib.pyplot as plt
housing.hist(bins=50,figsize(20,15))
plt.show()

创建测试集

理论上创建测试集很简单 :只要随机 挑选一些实例,一般是数据集的20%放到一边:

import numpy as np

def split_train_test(data,test_ratio):
    shuffled_indices=np.random.permutation(len(data))
    test_set_size=int(len(data)*test_ratio)
    test_indices=shuffled_indices[:test_set_size]
    train
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值