Pandas基础操作

Pandas基础

一、Series

Series讲解

from pandas import Series,DataFrame
import pandas as pd
obj = Series([1, -2, 3, -4])
#自动生产索引与之对应
type(obj)
#查看series类型
obj2 = Series([1, -2, 3, -4], index=['a', 'b', 'c', 'd'])
#生成数组,指定索引为a,b,c,d
obj2.values
#输出数组的值
obj2.index
#输出数组的索引
obj2[2]
#索引数组的第3个值
obj2[['c']]
#输出索引为c的值
obj2['c'] = 23
#改索引为c的值为23
obj2[obj2 < 0 ]
#输出所有小于0的数据
obj2 * 2
#给obj2数组所有数据×2
np.abs(obj2)
#用numpy的abs函数使数组所有数据绝对值
data = {
   
    '张三':92,
    '李四':78,
    '王五':68,
    '小明':82    
}
obj3 = Series(data)
#输出数组
obj4 = Series(data, index=names)
#按索引名输出数组
obj4.name = 'math'
obj4.index.name = 'students'
#确定数组名和索引名

二、DataFrame

import numpy as np
from pandas import Series,DataFrame
import pandas as pd
data = {
   
    'name':['张三', '李四', '王五', '小明'],
    'sex':['female', 'female', 'male', 'male'],
    'year':[2001, 2001, 2003, 2002],
    'city':['北京', '上海', '广州', '北京']
}
df = DataFrame(data)
#用DataFrame将数组转化为表格的形式
df = DataFrame(data, columns=['name', 'sex', 'year', 'city'])
#指定标签(列)值
df = DataFrame(data, columns=['name', 'sex', 'year', 'city'],index=['a', 'b', 'c', 'd'])
#指定索引值和标签值
'sex' in df.columns
#判断数据是否在标签中
'f' in df.index
#判断数据是否在索引中

三、索引值

obj = Series([1, -2, 3, -4], index=['b', 'a', 'c', 'd'])
#生成数组,设置索引值
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
#重新索引,若索引值无对象,则输出NaN
obj2 = obj.reindex(range(6),method='ffill')
#向前填充
df2 = df.reindex(['a', 'b', 'c', 'd'],fill_value=0.0)
#重新索引,并将缺失值改为0.0
df3 = df2.reset_index(drop=True)
#重置索引,不想保留原来的index,使用参数 drop=True,默认 False。
df2 = df.set_index('name')
#将DataFrame 中的列转化为行索引

四、索引和选取

loc和iloc函数讲解

obj[['a','c']]
#选取索引为a和c的值
obj['a':'c']
#选取索引从a到c的值
df[['city','sex']]
#选取标签为city和sex的数组数据
df2.loc['张三']
#选取标签为张三的数据
df2.iloc[1]
#选取索引为1的数据
df2[(df2['sex'
pandas是一个Python库,用于数据分析和数据处理的工具。它提供了高效的数据结构和数据操作功能,特别适用于处理结构化数据。 以下是一些常见的pandas基础操作: 1. 导入pandas库:使用`import pandas as pd`导入pandas库。 2. 创建DataFrame:DataFrame是pandas中最重要的数据结构,类似于一张表格。可以通过多种方式创建DataFrame,例如从CSV文件、Excel文件、Python字典、NumPy数组等。 3. 查看数据:使用`df.head()`方法可以查看DataFrame的前几行,默认显示前5行。还可以使用`df.tail()`方法查看DataFrame的后几行。 4. 数据选择:可以使用列名称或列索引选择特定的列或多列数据。例如,使用`df['列名']`或`df.loc[:, '列名']`选择单列数据,使用`df[['列名1', '列名2']]`或`df.loc[:, ['列名1', '列名2']]`选择多列数据。 5. 数据过滤:可以使用条件语句过滤DataFrame中的数据。例如,使用`df[df['列名'] > 值]`可以选择满足条件的行。 6. 数据排序:可以使用`df.sort_values(by='列名')`对DataFrame按照指定的列进行排序。 7. 数据聚合:可以使用`df.groupby('列名').函数()`对数据进行分组并进行各种聚合操作,如求和、平均值、计数等。 8. 缺失值处理:可以使用`df.dropna()`删除包含缺失值的行或列,使用`df.fillna(value)`将缺失值填充为指定的值。 9. 数据统计:可以使用`df.describe()`获取DataFrame中数值列的统计信息,如均值、标准差、最小值、最大值等。 这些只是pandas基础操作的一部分,还有很多其他功能和方法可以用于数据处理和分析。你可以查阅pandas官方文档或参考相关教程来深入学习和掌握pandas
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值