Pandas使用一个二维的数据结构DataFrame来表示表格式的数据。
首先将pandas和numpy加载进来
import pandas as pd
import numpy as np
一. 生成数据表
1.文件读取
csv文件和xlsx分别用read_csv() 和 read_xlsx()
df = pd.read_csv('./data/HR.csv')
2.用pandas创建数据表
df = pd.DataFrame({
"id": [1001,1002,1003,1004,1005,1006],
"date": pd.date_range('20130102', periods=6),
"city": ['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
"age": [23,44,54,32,34,32],
"category": ['100-A','100-B','110-A','110-C','210-A','130-F'],
"price": [1200,np.nan,2133,5433,np.nan,4432]},
columns = ['id','date','city','category','age','price'])
执行结果:
id date city category age price
0 1001 2013-01-02 Beijing 100-A 23 1200.0
1 1002 2013-01-03 SH 100-B 44 NaN
2 1003 2013-01-04 guangzhou 110-A 54 2133.0
3 1004 2013-01-05 Shenzhen 110-C 32 5433.0
4 1005 2013-01-06 shanghai 210-A 34 NaN
5 1006 2013-01-07 BEIJING 130-F 32 4432.0
二. 数据表信息查看
1.维度查看
df.shape #(6,6)
2.数据表基本信息(维度,列名称,数据格式,所占空间等)
df.info()
3.每一列数据格式
df.dtypes
执行结果:
id int64
date datetime64[ns]
city object
category object
age int64
price float64
4.某一列数据格式
df['date'].dtypes
5.空值
df.isnull
df['date'].isnull # 某一列的空值
6.查看某一列的唯一值
df['date'].unique()
7.查看数据表的值
df.values
df.head() # 默认为前5行,也可自定义行数
df.tail() # 默认为后5行,也可自定义行数
8.利用现有数据生成一列新数据
比如:max_time和min_time是现有的两列,现在业务需要生成一列gs,gs=max_time-min_time
df.['gs']=df.['max_time']-['min_time']
9.查看基本统计量
df.describe()
执行结果:
a b c d
count 4.000000 4.000000 4.000000 4.000000
mean -0.058927 -0.474549 1.019342 -0.750464
std 0.595253 0.530539 0.753136 1.022685
min -0.640585 -0.997408 0.160999 -1.855990
25% -0.532082 -0.812058 0.509721 -1.489673
50% -0.065873 -0.561149 1.077771 -0.708147
75% 0.407282 -0.223640 1.587391 0.031062
max 0.536626 0.221508 1.760826 0.270427
10.数据框操作
df.head(1)['data'] # 获取第一行的date列
df.head(1)['data'][0] # 获取第一行的date列的元素值
sum(df['ability']) # 计算整个列的和
df[df['data'] == '20161111'] # 获取符合这个条件的行
df[df['data'] == '20161111'].index[0] # 获取符合这个条件的行的行索引的值
df.index # 获取行的索引
df.index[0] # 获取第一个行索引
df.index[-1] # 获取最后一个行索引,只是获取索引值
df.columns # 获取列标签
df[0:2] # 获取第1到第2行,从0开始,不包含末端
三.数据表清洗
1.用数字0填充空值
df.fillna(value=0)
2.使用列price的均值随NA进行填充
df['price'].fillna(df['price'].mean())
3.清除city字段的字符空格
df['city']=df['city'].map(str.strip)
4.大小写转换
df['city']=df['city'].str.lower
5.更改数据格式
df['price'].astype('int')
6.更改列名称
df.rename(columns={'category': 'category-size'})
7.删除重复值
df['city'].drop_duplicates() # 删除后出现的重复值
df['city'].drop_duplicates(keep='last') # 删除先出现的重复值
8.数据替换
df['city'].replace('sh', 'shanghai')
四.数据预处理
df1=pd.DataFrame({
"id":[1001,1002,1003,1004,1005,1006,1007,1008],
"gender":['male','female','male','female','male','female','male','female'],
"pay":['Y','N','Y','Y','N','Y','N','Y',],
"m-point":[10,12,20,40,40,40,30,20]})
1.数据表合并
df_inner = pd.merge(df,df1,how='inner')
df_left = pd.merge(df,df1,how='left')
df_right = pd.merge(df,df1,how='right')
df_outer = pd.merge(df,df1,how='outer')
2.设置索引列
df_left.set_index('id')
3.按照特定列的值排序
df_left.sort_values(by=['age'])
4.按照索引列排序
df_left.sort_index()
5.如果prince列的值>3000,group列显示high,否则显示low
df_left['group'] = np.where(df_left['price'] > 3000,'high','low')
6.对复合多个条件的数据进行分组标记
df_left.loc[(df_left['city'] == 'beijing') & (df_left['price'] >= 4000), 'sign'] = 1
7.对category字段的值依次进行分列,并创建数据表,索引值为df_inner的索引列,列名称为category和size
pd.DataFrame((x.split('-') for x in df_left['category']),index=df_left.index,columns=['category','size'])
8.将完成分裂后的数据表和原df_inner数据表进行匹配
d = df_left=pd.merge(df_left,'分裂后的表',right_index=True, left_index=True)
五.数据提取
主要用到三个函数:loc,iloc,ix
- loc函数按标签值进行提取
- iloc按位置进行提取
- ix同时按标签和位置进行提取
1.按索引提单行的值
df_left.loc[3] # 索引为3,而不是第三个
2.按索引提取区域行数值
df_left.iloc[0:5] # 0,1,2,3,4
3.重设索引
df_left.reset_index()
4.设置date为索引
df_left=df_left.set_index('date')
5.提取2013-01-04之前的所有数据
df_left[:'2013-01-04']
6.使用iloc按位置区域提取数据
df_left.iloc[:3,:2] # 冒号前后的数字不再是索引的标签名称,而是数据所在的位置,从0开始,前三行,前两列。
7.使用iloc按位置单独提取数据
df_left.iloc[[0,2,5],[4,5]] #提取第0、2、5行,4、5列
8.使用ix按索引标签和位置混合提取数据
df_left.ix[:'2013-01-03',:4] #2013-01-03号之前,前四列数据
9.判断city列的值是否为北京
df_left['city'].isin(['beijing'])
10.判断city列里是否包含beijing和shanghai,然后将符合条件的数据提取出来
df_left.loc[df_left['city'].isin(['beijing','shanghai'])]
11.提取前三个字符,并生成数据表
pd.DataFrame(category.str[:3])
六.数据筛选
1.使用与、或、非三个条件配合大于、小于、等于对数据进行筛选。
# 与
df_left.loc[(df_left['age'] > 25) & (df_left['city'] == 'beijing'), ['id','city','age','category','gender']]
# 或
df_left.loc[(df_left['age'] > 25) | (df_left['city'] == 'beijing'), ['id','city','age','category','gender']]
# 非
df_left.loc[(df_left['city'] != 'beijing'), ['id','city','age','category','gender']]
2.对筛选后的数据按city列进行计数
df_left.loc[(df_left['age'] > 25) & (df_left['city'] == 'shanghai'), ['id','city','age','category','gender']].city.count()
3.使用query函数进行筛选
df_left.query('city == ["Beijing", "shanghai"]')
4.对筛选后的结果按prince进行求和
df_left.query('city == ["beijing", "Shenzhen"]').price.sum()
七.数据汇总
主要函数是groupby和pivote_table
1.对所有的列进行计数汇总
df_left.groupby('city').count()
2.按城市对id字段进行计数
df_left.groupby('city')['id'].count()
3.对两个字段进行汇总计数
df_left.groupby(['city','size'])['id'].count()
4.对city字段进行汇总,并分别计算prince的合计和均值
df_left.groupby('city')['price'].agg([len,np.sum, np.mean])
八.数据统计
数据采样,计算标准差,协方差和相关系数
1.简单的数据采样采样后不放回
df_left.sample(n=3)
2.手动设置采样权重
weights = [0, 0, 0, 0, 0.5, 0.5]
df_left.sample(n=2, weights=weights)
3.采样后放回/不放回
df_left.sample(n=6, replace=True) # 采样后放回
df_left.sample(n=6, replace=False) # 采样后不放回
4.计算列的标准差
df_left['price'].std()
5.计算协方差
df_inner.cov() # 数据表中所有字段间的协方差
df_left['price'].cov(df_inner['m-point']) # 计算两个字段间的协方差
6.相关性分析
# 数据表的相关性分析
df_inner.corr()
# 两个字段的相关性分析
df_left['price'].corr(df_inner['m-point']) #相关系数在-1到1之间,接近1为正相关,接近-1为负相关,0为不相关
九.数据输出
分析后的数据可以输出为xlsx格式和csv格式
1.输出为Excel
df_left.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')
2.输出为CSV
df_left.to_csv('excel_to_python.csv')