pandas 第一列_Pandas

本文介绍了Pandas库的基础知识,包括DataFrame和Series数据类型,以及如何读取文件数据。重点讲解了DataFrame的索引、选择和赋值操作,如iloc和loc的使用,条件查找和赋值。此外,还提到了概要函数、映射、分组和排序,以及数据类型、缺失值处理、重命名和数据合并等核心概念。
摘要由CSDN通过智能技术生成

Pandas 是一个 Python 模块,是最常用的数据分析库。学习Pandas的途径很多,例如官网上的教程。但 kaggle 微课有它的好处,使用平台提供的数据库,与实际应用关系更密切。

以下是我整理的思维导图:

a16ea5c0869c541be297de01bbe7fd76.png

一、基本数据类型

Pandas 里面有两个基本数据类型:DataFrame 和 Series。其中DataFrame类似于二维表格,而Series则类似于列表。

(一)DataFrame

# 通过字典创建DataFrame

pd.DataFrame({
    'Yes': [50, 21], 'No': [131, 2]})

pd.DataFrame({
    'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

55785d47e8c298de28c959566dc79811.png

上图展示了由第二个语句定义的一个DataFrame,可以看到第一行、第一列分别为“列标签”(column name)、“行索引”(index),它们用于数据的查找。其余部分为数据本身。

通过字典来定义DataFrame,每一个“键”对应于一列,而“值”一般为列表,保存具体数据。

可以通过index列表定义DataFrame的序列名,如果不定义,则默认从0开始编号。

(二)Series

# 通过列表来创建 Series

pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], 
name='Product A')

1a9763cd21d3a7093ef7c398a7444e77.png

与 python 列表的区别在于,Series 能够定义“行索引”index,还可以定义一个Name变量。

(三)读取文件数据

最常见的是读取CSV文件

# 读取文件,index_col = 0 避免产生重复的行索引
wine_reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", 
index_col=0)

# 预览前五条数据
wine_reviews.head()

# 查看DataFrame的大小,注意无需括号(加括号会报错)
wine_reviews.shape

二、DataFrame的索引、选择与赋值

519e0d77adba7be1df6a12214546ae83.png

(一)索引 Indexing

假设名为 reveiws 的 DataFrame 如上图所示,如何查找其中的列或者元素?

# 查找其中的列,返回一个 Series , 有两种方式
reveiws.country

reveiws['country']

# 查找某一单元格的值
reveiws['country'][0]

基于索引(index-based)的查找

.iloc[index] 通过序列号返回DataFrame的某一行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值