pandas笔记

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
"""
@author: XiangguoSun
@contact: sunxiangguodut@qq.com
@file: learn_pandas.py
@time: 2017/3/8 8:18
@software: PyCharm
"""
import numpy as np
from pandas import Series, DataFrame
import pandas as pd


'''
1,基本数据结构
'''
'''
1.1 Series: dic+array
'''
obj_dic={'a':1,'b':2,'c':3}
objd=Series(obj_dic)
obj = Series([4,7,-5,3],index=['a','b','c','d'])
print obj.index,obj.values
print obj[['a','c']]
print 'b' in obj

obj_na = Series(obj,index=['a','b','c','d','add'])
print obj_na

print obj_na.isnull()  # also pd.isnull(obj_na)
print obj_na.notnull()  # also pd.notnull(obj_na)
print obj_na.name
print obj_na.index.name
obj_na.index=['x','y','z','o','p']
obj_na.name='my_table'
obj_na.index.name='my_index'
print obj_na

'''
1.2 DataFrame
'''
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]
        }
df = DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five'])
print df
print df.ix['three']
df['five']=np.arange(5)
print df

#增加和删除列
df['new_column']=df.state == 'Ohio'
print df
del df['new_column']
print df.columns

#嵌套字典
pop = {'Nevada':{2001:2.4,2002:2.9},
       'Ohio':{2000:1.5,2001:1.7,2002:3.6}
       }
data = DataFrame(pop)
print data
print data.T
print DataFrame(pop,index=[2001,2002,2003])
data.index.name='sunxiangguo'
data.columns.name = 'state'
print data
print data.values#返回二维ndarray

#索引对象index:不常用,略
'''index对象不可修改'''

'''
2,基本功能
'''
#重新索引
obj = Series([4.5,7,-2,4],index=['b','a','c','d'])
print obj
obj2 = obj.reindex(['a','b','c','d','e'])
print obj2
obj3 = obj.reindex(['a','b','c','d','e'], fill_value=0)
print obj3

#插值处理
obj = Series(['blue','perple','yellow'],index=[0,2,4])
print obj
obj2 = obj.reindex(range(8),method='ffill')  # 前向插值
print obj2
print obj.reindex(range(7),method='pad') # equal to ffill
print obj.reindex(range(7),method='bfill') # 后向插值
print obj.reindex(range(7),method='backfill') # equal to bfill


这里写图片描述
这里写图片描述
这里写图片描述

# 丢弃指定轴上的项
obj = Series(np.arange(5), index=['a', 'b', 'c', 'd', 'e'])
new_obj = obj.drop('c')
print obj
print new_obj
print obj.drop(['c', 'd'])

data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four']
                 )

print data
print data.drop(['Colorado', 'Ohio'])
print data.drop('two', axis=1)
print data.drop(['two', 'four'], axis=1)

# 索引、选取和过滤
data = Series(np.arange(4), index=['a', 'b', 'c', 'd'])
print data
print data['b']
print data[1]
print data[2:4]
print data[['b','a','d']]
print data[[1,3]]
print data[data<2]
print data['a':'c']

data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
print data
print data['two']  # 选取列
print data[['three', 'one']]  # 选取列
print data[:2]  # 注意[]里面是切片或者布尔型数组时,选取的不再是列,而是行
print data[data['three'] > 5]  # 注意[]里面是切片或者布尔型数组时,选取的不再是列,而是行

print data.ix[:2, :2]  # 同时选取行和列
print data.ix[1:3]  # 选取一组行

print data.xs('Ohio')  # 根据标签选取若干行
print data.xs(range(1, 4), axis=1)  # 根据标签选取若干列
'''
print data.icol(2)
print data.irow(0)
这两个已经被下面两行代码取代
'''
print data.iloc[:, 2]
print data.iloc[0]
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Pandas是Python中一个强大的数据分析库,它可以轻松地读取、处理和分析各种数据类型,包括Excel表格。本文将介绍如何使用Pandas来操作Excel文件,并提供相应的笔记PDF文件进行参考。 要使用Pandas操作Excel文件,首先需要安装Pandas库。在安装完Pandas之后,我们可以使用"pandas.read_excel"函数来读取Excel文件。该函数可以接受Excel文件路径作为参数,并返回一个Pandas的DataFrame对象,以便我们进行后续的数据操作和分析。 一旦我们读取了Excel文件,就可以使用Pandas提供的各种函数来对数据进行处理和分析。例如,我们可以使用"head"函数来查看数据的前几行,使用"describe"函数来获取数据的统计信息,或者使用"sort_values"函数对数据进行排序等等。这些函数可以帮助我们更好地理解和掌握数据,从而做出更准确的分析和决策。 此外,Pandas还提供了一些函数来进行数据的筛选、修改和计算。我们可以使用"loc"和"iloc"函数来选择特定的行和列,使用"fillna"函数来填充空值,使用"apply"函数对某一列数据进行自定义计算等等。这些函数的使用可以帮助我们快速地完成数据的处理和分析任务。 最后,我们可以将Pandas的DataFrame对象转换为PDF文件,以便记录我们的数据处理和分析过程。可以使用"df.to_pdf"函数将DataFrame对象保存为PDF文件,该文件可以作为笔记使用,方便我们回顾和分享。 总之,Pandas提供了丰富而强大的功能,可以帮助我们轻松地操作Excel文件,并进行相关的数据处理和分析。同时,我们可以将操作过程记录为PDF文件,方便日后参考和分享。 ### 回答2: pandas操作Excel的方法非常方便,可用于读取、写入和操作Excel文件。下面是关于pandas操作Excel的笔记。 1. 读取Excel文件:可以使用`pandas.read_excel()`函数来读取Excel文件,并将其转换为DataFrame对象。可以通过指定文件路径、工作表名称和其他参数来读取不同的工作表和数据。 2. 数据筛选和操作:我们可以使用pandas的各种函数和方法对Excel中的数据进行筛选和操作。例如,`df.drop()`可以删除指定的行或列,`df.loc()`可以按条件选择数据等。这些方法可以帮助我们根据需要对Excel中的数据进行处理和分析。 3. 数据写入Excel:使用`pandas.DataFrame.to_excel()`函数可以将DataFrame对象写入到Excel文件中。可以通过指定文件路径和其他参数来实现对Excel文件的写入操作。 4. 数据统计和计算:pandas提供了许多内置函数和方法来进行数据的统计和计算操作。例如,`df.mean()`可以计算平均值,`df.sum()`可以计算总和等。这些函数和方法可以帮助我们快速计算和分析Excel中的数据。 总之,pandas是一个强大的工具,可以方便地操作Excel文件。它提供了许多函数和方法,可以帮助我们读取、写入和处理Excel中的数据。通过使用pandas,我们可以更高效地进行数据分析和处理工作,在处理大量数据时尤其有用。无论是初学者还是有经验的数据分析师,都可以受益于pandas在Excel操作中的优势。 ### 回答3: pandas是一个在Python中用于数据分析和操作的强大库。它提供了大量的函数和方法,方便我们对Excel文件进行读取、写入和处理。下面是关于pandas操作Excel的一些笔记: 1. 读取Excel文件: 我们可以使用pandas的`read_excel()`函数来读取Excel文件。只需要传入Excel文件的路径或URL即可。读取后的数据可以保存在DataFrame对象中,方便后续的操作和分析。 2. 写入Excel文件: 利用pandas,我们可以使用`to_excel()`函数将数据从DataFrame对象写入Excel文件中。我们可以指定文件的输出路径和文件名,还可以设置写入的sheet名称和是否包含行索引。 3. 数据操作和处理: pandas提供了丰富的数据处理功能。我们可以对读取的Excel数据进行选取、过滤、排序、合并、拆分等操作。比如可以使用`df.head()`来获取数据的前几行,使用`df.describe()`来获取数据的基本统计信息。 4. 数据筛选和过滤: 在pandas中,我们可以使用布尔索引来筛选和过滤数据。比如可以使用`df[df['列名'] > 值]`来获取满足条件的数据行。 5. 数据统计和分析: pandas提供了丰富的数据统计和分析函数,可以方便地进行数据聚合、求和、平均值等操作。比如可以使用`df.groupby('列名').mean()`来对数据进行分组并计算平均值。 6. 缺失值处理: 如果Excel文件中存在缺失值,我们可以使用pandas的函数来处理缺失值。比如使用`df.dropna()`来删除包含缺失值的行,使用`df.fillna(value)`来填充缺失值。 总之,pandas提供了丰富的函数和方法,方便我们对Excel文件进行读取、写入和处理。它不仅简化了数据操作的流程,还可以高效地处理大量的数据。通过对pandas的学习和应用,我们可以更好地处理和分析Excel数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值