pandas学习日记(五)

本文介绍了如何在Pandas中对Series和DataFrame进行排序,包括单列排序、多列排序,以及涉及字符串处理、索引操作,如随机顺序索引、有序索引排序和数据对齐的方法。还提及了使用Sklearn库打乱数据和优化运行效率的技巧。
摘要由CSDN通过智能技术生成

排序

Series和DataFrame排序

import pandas as pd
df = pd.read_csv("文件")

# Series 排序
df["列字段"].sort_values(ascending=bool) # bool=True 表示升序 False表示降序

#DataFrame 排序 根据多个字段排序
df.sort_values(by=["字段1","字段2","字段3",...],ascending=[bool1,bool2,bool3,...])

字符串处理

# 字符串对象
df["字段"].str
# 判断数字
df["字段"].str.isnumeric()
# 字符串长度
df["字段"].str.len()
# 字符串切片
df["字段"].str[x:y] 
df['字段'].str.slice(x,y)
# 字符串替换
df["字段"].str.replace([被换内容],替换内容)

index索引属性

使用合理使用索引可以加快运行速度

from sklearn.utils import shuffle #引入打乱序的库

#####   随机顺序索引
#设置索引
df.set_index(字段名,inplace=True,drop=False)
# 打乱原数据
df_shuffle = shuffle(df)
# 查看索引是否递增
df_shuffle.index.is_monotonic_increasing
# 使用魔法函数查看运行状况
%timeit df_shuffle.loc[索引字段]


##### 使用index排序
# 排序
df_sorted = df_shuffle.sort_index()
# 查看索引 
df_sorted.index.is_monotonic_increasing
# 检测索引是否唯一 (查找会用哈希搜索)
df_sorted.index.is_unique
# 使用魔法函数查看运行状况
%timeit df_shuffle.loc[索引字段]



##### index数据对齐
s1 = pd.Series([2,3,4],index=list("acd"))
s2 = pd.Series([2,3,4],index=list("bcd"))
# 两个相加会自动后会补充没有的数值 类似数据库外连接
s1+s2
# 不存在的置为0 写法
s1.add(s2, fill_value=0)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mystic Musings

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值