python pandas常用功能和dataFrame数据筛选方法记录

最新推荐文章于 2024-07-31 09:11:48 发布

phoenix339

最新推荐文章于 2024-07-31 09:11:48 发布

阅读量2.2k

点赞数 1

分类专栏： pandas python 文章标签： python pandas

本文链接：https://blog.csdn.net/phoenix339/article/details/97394726

版权

python 同时被 2 个专栏收录

18 篇文章 3 订阅

订阅专栏

pandas

2 篇文章 0 订阅

订阅专栏

Pandas一些常用功能：

# 合并dataFrame并重置index
pd.concat([df1, df2], ignore_index=True)
# 读pickle文件，指定压缩
df = pd.read_pickle("/xxx/df.pkl", compression='gzip')
# 去重
df.drop_duplicates()
# 输出到excel、pickle
df.to_excel("/xxx/df.xlsx", index=False)
df.to_pickle("/xxx/df.pkl", compression='gzip')

pandas DataFrame筛选数据的常用方法：

提取dataFrame中的某两列数据，
条件为：某列数据符合name的，并设置其中一列数据为index（这样就变成了Series）
df = df[['START_TIME', 'VALUE_CALC']][(df['NE_NAME'] == name)].set_index('START_TIME')

新生成的Series是datetimeIndex，支持切片筛选
df = df[pastday:yesterday]

获取index转成list 
X = list(df.index)

获取values转成list
Y = list(['VALUE_CALC'])

多个筛选dataFrame的条件可以用 & | 连接，将每个条件用()括起来
提取df中 起始时间列 >=start（日期时间字符串）\
并且 结束时间列 <=end（日期时间字符串）\
并且 名字列 中所有在namelist中的数据
（.isin()方法：传入一个list，筛选出列中符合list中元素的所有行，这里namelist是列表[]）
df[(df['START_TIME'] >= start) & (df['END_TIME'] <= end) & (df['NE_NAME'].isin(namelist))]