下面数据都是在python code里边测试练习的,所以只有单行的测试和结果,没有整体的代码,后期会完善的,请大家多多指导
import pandas as pd
Series
pd.Series([list],index=[list]) index可选,默认从0开始
例如
c= pd.Series([1,2,3,4,5])
c= pd.Series([1,2,3,4,5],index=[‘a’,‘b’,‘c’,‘d’,‘e’])
数据:
c= pd.Series([90,80,100,60,80,60],index=[‘数学’,‘语文’,‘化学’,‘地理’,‘音乐’,‘体育’])
显示一行的数据,不是一列
DataFrame 可以显示成二维的
例如
pd.DataFrame({‘数学’:[90,70,80],‘语文’:[80,79,90]})
二、
score = pd.read_excel(‘score.xlsx’)
会提示没有xlrd的包,pip下载一下,注意源
pip install -i http://pypi.douban.com/simple --trusted-host pypi.douban.com xlrd 我用这个下载的
score.loc[:,[‘数学’,‘语文’]] 只看语文和数学两列,用log
score.info() 每一列的信息
score.describe() 数据条数、均值、方差、最小值、四分位、中位数、四分之三
列数多的话中间会出现省略号
查看前几条数据用head
score.head(3) 前三行
后两行
score.tail(2)
上边说的,中间出现省略号的话想要查看省略的信息
score_des = score.describe()
用columns打印score_des.columns
也可以用loc查看前几条
score_des.loc[:,[‘化学’,‘地理’]]
如果想要像二维数组一样切片的话需要使用iloc
score_des.iloc[1:3,1:3]
使用loc的话需要制定名字
score_des.loc[‘count’:‘std’,‘语文’:‘音乐’]
最大值最小值
导入CSV文件数据
pd_imdb = pd.read_csv(‘IMDB.csv’)
info head………………都和上边一样
查看所有列的名字
pd_imdb.head(5)[‘Description’] 查找前五条信息里的电影简介Description
pd_imdb[pd_imdb[‘Genre’].str.contains(‘Sci-Fi’)] 所有的科幻电影,'Genre’是列名
打印所有科幻电影的名字
pd_revenue = pd_imdb[pd_imdb[‘Revenue (Millions)’] > 500]科幻电影里票房大于500
director_count = pd_imdb[‘Director’].value_counts() 不同导演出现的次数