python 中用pandas处理Excel文件

import pandas as pd
import numpy as np
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df=pd.DataFrame(d)
print df
mean=df.mean()
print mean
#可以通过传递一个list对象来创建一个Series,pandas会默认创建整型索引:
#通过传递一个numpy array,时间索引以及列标签来创建一个DataFrame:
dates=pd.date_range('20161120',periods=6)
print dates

df1=pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))
print df1
#通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame:
df2=pd.DataFrame({'A':1.,'B':pd.Series(1,index=list(range(5)),dtype='float32'),'C':pd.Timestamp('20161124'),'D':np.array([3]*5,dtype='int32'),'E':pd.Categorical(['test','train','test','train','test']),'F':'foo'})
print df2

# 查看frame中头部和尾部的行:
print df1.tail(1)

print df1.head(3)

# 显示索引、列和底层的numpy数据:
print df2.index

print df2.columns

print df2.values


#describe()函数对于数据的快速统计汇总:
print df1.describe()

#对数据的转置:
print df1.T

#按轴进行排序
print df1.sort_index(axis=1,ascending=False)

#按值进行排序
print df1.sort(columns='B')


# 选择一个单独的列,这将会返回一个Series,等同于df.A:

print 'df1[A]'+'\n',df1['A']

#通过[]进行选择,这将会对行进行切片

print 'df1[0:3]'+'\n',df1[0:2],'\n'

#使用标签来获取一个交叉的区域
print df1.loc[dates[0]],'\n\n'

#通过标签来在多个轴上进行选择
print df1.loc[dates[0:2],['C','A']]

 处理缺失数据(Missing data)
9.1 pandas使用浮点值NaN(Not a Number)表示浮点和非浮点数组中的缺失数据。
9.2 NA处理办法
    dropna      根据各标签值中是否存在缺失数据对轴标签进行过滤,可通过阀值调节对缺失值的容忍度
    fillna      用指定的或插值方法(如ffil或bfill)填充缺失数据
    isnull      返回一个含有布尔值的对象,这些布尔值表示哪些值是缺失值/NA,该对象的类型与源类型一样
    notnull     isnull的否定式



  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
Python中使用`pandas`库将Excel导入后,你可以使用各种`pandas`提供的功能来处理数据。以下是一些常见的数据处理操作示例: 1. 查看数据: ```python # 打印整个数据集 print(data) # 查看数据集的前几行 print(data.head()) # 查看数据集的后几行 print(data.tail()) # 查看数据集的摘要统计信息 print(data.describe()) ``` 2. 访问列数据: ```python # 访问特定列 column_data = data['列名'] print(column_data) # 访问多个列 columns = ['列1', '列2', '列3'] multi_column_data = data[columns] print(multi_column_data) ``` 3. 过滤数据: ```python # 使用条件过滤数据 filtered_data = data[data['条件列'] == '条件值'] print(filtered_data) # 使用多个条件过滤数据 filtered_data = data[(data['条件列1'] == '条件值1') & (data['条件列2'] == '条件值2')] print(filtered_data) ``` 4. 排序数据: ```python # 按特定列排序(升序) sorted_data = data.sort_values(by='列名') print(sorted_data) # 按特定列排序(降序) sorted_data = data.sort_values(by='列名', ascending=False) print(sorted_data) ``` 5. 数据转换: ```python # 将列中的字符串转换为日期类型 data['日期列'] = pd.to_datetime(data['日期列']) # 将列中的数字转换为字符串类型 data['数字列'] = data['数字列'].astype(str) # 应用自定义函数到列 def custom_function(value): # 自定义处理逻辑 return processed_value data['新列'] = data['原列'].apply(custom_function) ``` 这些只是一些常见的数据处理操作示例,`pandas`库提供了丰富的功能和方法来处理和操作数据。你可以根据具体需求使用适当的`pandas`函数和方法来处理导入的Excel数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

samoyan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值