pandas学习(1)-初探

1.pandans介绍:主要用于数据的处理和计算,提供了大量的库。对于机器学习来说,大部分的工作在于数据的清洗和操作,例如读取数据,对数据的分析等等。

2.pandas基本数据结构:

  • Series:类似一维数据结构,但是元素可以是不同的数据类型
  • DataFrame: 类似二维数据结构,是Series的容器
  • Panel: 三维数据结构,是DataFrame的容器

    案例分析:read_csv读取文件后,DataFrame数据类型的操作

import pandas as pd
import matplotlib.pyplot as plt
# read_data是DataFrame类型,会标识行的个数以及每列的信息
read_data = pd.read_csv('./Data/test.csv')
# 获取和打印整个数据,以DataFrame的形式和矩阵的形式
print(read_data, read_data.values)
# 获取和打印前三行的数据信息,分别为DataFrame 和 矩阵的数据类型
print(read_data[0:3], read_data[0:3].values)
# 获取和打印某一列的数据信息,必须用矩阵的形式,DataFrame没有提供列哈希查询
print(read_data.values[:, 1])
# 如果知道某列的含义标识,那么可以直接再DataFrame类型下哈希查找,结果还是DataFrame类型,再转换成矩阵类型
print(read_data['Id'], read_data['Id'].values)
# 将筛选出来的列用图描述
read_data['Id'].plot(figsize=(5,6)) # 设置图大小
plt.show()
# 选择多列
print(read_data[['Id', 'Col_10']])
# 选择多列以及筛选行
print(read_data[['Id', 'Col_10']][1:5])
# 统计列的值出现次数, 若需要出现次数的前10个,访问列表前十,并显示下
print(read_data['Id'].value_counts(), read_data['Id'].value_counts()[:10])
read_data['Id'].value_counts()[:10].plot(kind='bar')
plt.show()

以上是对读取数据的简单操作

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值