数据分析02Pandas入门

本文介绍了Pandas库中的Series和DataFrame的基础操作,包括如何创建Series、指定Index、转换为字典、DataFrame的IO操作、筛选与索引更改,以及处理NaN值和多级Index等内容。
摘要由CSDN通过智能技术生成

Pandas的Series的创建

用一个列表定义一个Series
#导入库
import numpy as np
import pandas as pd
s1 = pd.Series([1, 2, 3, 4])

得到
0 1
1 2
2 3
3 4
dtype:int64

Series的属性
s1.values得到数组array([1, 2, 3, 4])
s1.index得到RangeIndex(start=0, stop=4, step=1)

直接用Numpy数组定义一个Series
#导入库
import numpy as np
import pandas as pd
s2 = pd.Series(np.arange(10))

用Python字典定义一个Series
#导入库
import numpy as np
import pandas as pd
s3 = pd.Series({
   '1':1, '2':2, '3':3})

得到
1 1
2 2
3 3
dtype:int64

Series的属性
s3.values得到数组array([1, 2, 3])
s3.index得到Index([‘1’, ‘2’, ‘3’], dtype=‘object’)

指定Index定义一个Series
#导入库
import numpy as np
import pandas as pd
s4 = Series([1,2,3,4], index=['A','B','C','D'])
'''
得到
A 1
B 2
C 3
D 4
dtype: int64
'''
#获取值
s4['A']  #得到1
#获取值范围
s4[s4>2]
'''
得到
C 3
D 4
dtype: int64
'''
Series转换为字典
#字典和Series可以相互转换
#导入库
import numpy as np
import pandas as pd
s4 = Series([1,2,3,4], index=['A','B','C','D'])
s4.to_dict()
Index的更改
#导入库
import numpy as np
import pandas as pd
s4 = Series([1,2,3,4], index=['A','B','C','D'])
index_1 = ['A','B','C','D','E']
s5 = pd.Series(s4, index=index_1)
'''
得到
A 1.0
B 2.0
C 3.0
D 4.0
E  NaN
dtype: Float64
'''
#判断值,判断是否为空,也得到一个Series
pd.isnull(s5)
pd.notnull(s5)
给Series/Index命名
#导入库
import numpy as np
import pandas as pd
s4 = Series([1,2,3,4], index=['A','B','C','D'])
index_1 = ['A','B','C','D','E']
s5 = pd.Series(s4, index=index_1)
#给Series命名
s5.name = 'demo'
'''
得到
A 1.0
B 2.0
C 3.0
D 4.0
E  NaN
Name:demo, dtype: Float64
'''
#给Index命名
s5.index.name = 'demo index'
'''
得到
demo index
A 1.0
B 2.0
C 3.0
D 4.0
E  NaN
'''
Name:demo, dtype: Float64
s5.index
#得到Index(['A','B','C','D','E'], dtype='object', name = 'demo index')
Pandas的DataFrame的创建
#导入库
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
#导入网址的模块
import webbrowser
link = 'http://www.tiobe.com/tiobe-index'
webbrowser.open(link)
#复制粘贴方式转换成一个DataFrame
df = pd.read_clipboard()

可以得到复制内容
在这里插入图片描述

#检验df的属性
type(df)
得到pandas.core.frame.DataFrame
#列名
df.columns
'''
得到
Index(['May 2019', 'May 2018', 'Change', 'Programming Language', 'Ratings', 'Change.1'], dtype='object')
'''
#返回一列的值
df.Ratings
'''
得到
0 16.005%
1 14.243%
2 8.095%
3 7.830%
4 5.193%
5 3.984%
6 2.690%
7 2.555%
8 2.489%
9 1.816%
Name: Ratings, dtype: object
'''
#筛选数据
df_new = DataFrame(df, columns=['Programming Language', 'May 2018']
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值