pandas基础

最新推荐文章于 2024-06-29 17:44:06 发布

sumatch

最新推荐文章于 2024-06-29 17:44:06 发布

阅读量521

点赞数 4

文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/sumatch/article/details/97804727

版权

Pandas使用一个二维的数据结构DataFrame来表示表格式的数据。

首先将pandas和numpy加载进来

import pandas as pd
import numpy as np

一. 生成数据表

1.文件读取

csv文件和xlsx分别用read_csv() 和 read_xlsx()

df = pd.read_csv('./data/HR.csv')

2.用pandas创建数据表

df = pd.DataFrame({
    "id": [1001,1002,1003,1004,1005,1006],
    "date": pd.date_range('20130102', periods=6),
    "city": ['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
    "age": [23,44,54,32,34,32],
    "category": ['100-A','100-B','110-A','110-C','210-A','130-F'],
    "price": [1200,np.nan,2133,5433,np.nan,4432]},
     columns = ['id','date','city','category','age','price'])

执行结果：

     id       date         city category  age   price
0  1001 2013-01-02     Beijing     100-A   23  1200.0
1  1002 2013-01-03           SH    100-B   44     NaN
2  1003 2013-01-04   guangzhou     110-A   54  2133.0
3  1004 2013-01-05     Shenzhen    110-C   32  5433.0
4  1005 2013-01-06     shanghai    210-A   34     NaN
5  1006 2013-01-07     BEIJING     130-F   32  4432.0

二. 数据表信息查看

1.维度查看

df.shape   #（6，6）

2.数据表基本信息（维度，列名称，数据格式，所占空间等）

df.info()

3.每一列数据格式

df.dtypes

执行结果：

id                   int64
date        datetime64[ns]
city                object
category            object
age                  int64
price              float64

4.某一列数据格式

df['date'].dtypes

5.空值

df.isnull
df['date'].isnull   # 某一列的空值

6.查看某一列的唯一值

df['date'].unique()

7.查看数据表的值

df.values

df.head()  # 默认为前5行，也可自定义行数
df.tail()  # 默认为后5行，也可自定义行数

8.利用现有数据生成一列新数据

比如：max_time和min_time是现有的两列，现在业务需要生成一列gs，gs=max_time-min_time

df.['gs']=df.['max_time']-['min_time']

9.查看基本统计量

df.describe()

执行结果：

              a         b         c         d
count  4.000000  4.000000  4.000000  4.000000
mean  -0.058927 -0.474549  1.019342 -0.750464
std    0.595253  0.530539  0.753136  1.022685
min   -0.640585 -0.997408  0.160999 -1.855990
25%   -0.532082 -0.812058  0.509721 -1.489673
50%   -0.065873 -0.561149  1.077771 -0.708147
75%    0.407282 -0.223640  1.587391  0.031062
max    0.536626  0.221508  1.760826  0.270427

10.数据框操作


df.head(1)['data'] # 获取第一行的date列

df.head(1)['data'][0] # 获取第一行的date列的元素值

sum(df['ability']) # 计算整个列的和

df[df['data'] == '20161111']  # 获取符合这个条件的行

df[df['data'] == '20161111'].index[0]   # 获取符合这个条件的行的行索引的值

df.index # 获取行的索引

df.index[0] # 获取第一个行索引

df.index[-1]   # 获取最后一个行索引,只是获取索引值

df.columns    # 获取列标签

df[0:2]    # 获取第1到第2行，从0开始，不包含末端

三.数据表清洗

1.用数字0填充空值

df.fillna(value=0)

2.使用列price的均值随NA进行填充

df['price'].fillna(df['price'].mean())

3.清除city字段的字符空格

df['city']=df['city'].map(str.strip)

4.大小写转换

df['city']=df['city'].str.lower

5.更改数据格式

df['price'].astype('int')

6.更改列名称

df.rename(columns={'category': 'category-size'})

7.删除重复值

df['city'].drop_duplicates()   # 删除后出现的重复值
df['city'].drop_duplicates(keep='last')     # 删除先出现的重复值

8.数据替换

df['city'].replace('sh', 'shanghai')

四.数据预处理

df1=pd.DataFrame({
    "id":[1001,1002,1003,1004,1005,1006,1007,1008], 
    "gender":['male','female','male','female','male','female','male','female'],
    "pay":['Y','N','Y','Y','N','Y','N','Y',],
    "m-point":[10,12,20,40,40,40,30,20]})

1.数据表合并

df_inner = pd.merge(df,df1,how='inner')
df_left = pd.merge(df,df1,how='left')
df_right = pd.merge(df,df1,how='right')
df_outer = pd.merge(df,df1,how='outer')

2.设置索引列

df_left.set_index('id')

3.按照特定列的值排序

df_left.sort_values(by=['age'])

4.按照索引列排序

df_left.sort_index()

5.如果prince列的值>3000，group列显示high，否则显示low

df_left['group'] = np.where(df_left['price'] > 3000,'high','low')

6.对复合多个条件的数据进行分组标记

df_left.loc[(df_left['city'] == 'beijing') & (df_left['price'] >= 4000), 'sign'] = 1

7.对category字段的值依次进行分列，并创建数据表，索引值为df_inner的索引列，列名称为category和size

pd.DataFrame((x.split('-') for x in df_left['category']),index=df_left.index,columns=['category','size'])

8.将完成分裂后的数据表和原df_inner数据表进行匹配

d = df_left=pd.merge(df_left,'分裂后的表',right_index=True, left_index=True)

五.数据提取

主要用到三个函数：loc,iloc,ix

loc函数按标签值进行提取
iloc按位置进行提取
ix同时按标签和位置进行提取

1.按索引提单行的值

df_left.loc[3]  # 索引为3，而不是第三个

2.按索引提取区域行数值

df_left.iloc[0:5]    # 0，1，2，3，4

3.重设索引

df_left.reset_index()

4.设置date为索引

df_left=df_left.set_index('date')

5.提取2013-01-04之前的所有数据

df_left[:'2013-01-04']

6.使用iloc按位置区域提取数据

df_left.iloc[:3,:2]  # 冒号前后的数字不再是索引的标签名称，而是数据所在的位置，从0开始，前三行，前两列。

7.使用iloc按位置单独提取数据

df_left.iloc[[0,2,5],[4,5]] #提取第0、2、5行，4、5列

8.使用ix按索引标签和位置混合提取数据

df_left.ix[:'2013-01-03',:4] #2013-01-03号之前，前四列数据

9.判断city列的值是否为北京

df_left['city'].isin(['beijing'])

10.判断city列里是否包含beijing和shanghai，然后将符合条件的数据提取出来

df_left.loc[df_left['city'].isin(['beijing','shanghai'])]

11.提取前三个字符，并生成数据表

pd.DataFrame(category.str[:3])

六.数据筛选

1.使用与、或、非三个条件配合大于、小于、等于对数据进行筛选。

# 与
df_left.loc[(df_left['age'] > 25) & (df_left['city'] == 'beijing'), ['id','city','age','category','gender']]
# 或
df_left.loc[(df_left['age'] > 25) | (df_left['city'] == 'beijing'), ['id','city','age','category','gender']]
# 非
df_left.loc[(df_left['city'] != 'beijing'), ['id','city','age','category','gender']]

2.对筛选后的数据按city列进行计数

df_left.loc[(df_left['age'] > 25) & (df_left['city'] == 'shanghai'), ['id','city','age','category','gender']].city.count()

3.使用query函数进行筛选

df_left.query('city == ["Beijing", "shanghai"]')

4.对筛选后的结果按prince进行求和

df_left.query('city == ["beijing", "Shenzhen"]').price.sum()

七.数据汇总

主要函数是groupby和pivote_table

1.对所有的列进行计数汇总

df_left.groupby('city').count()

2.按城市对id字段进行计数

df_left.groupby('city')['id'].count()

3.对两个字段进行汇总计数

df_left.groupby(['city','size'])['id'].count()

4.对city字段进行汇总，并分别计算prince的合计和均值

df_left.groupby('city')['price'].agg([len,np.sum, np.mean])

八.数据统计

数据采样，计算标准差，协方差和相关系数

1.简单的数据采样采样后不放回

df_left.sample(n=3)

2.手动设置采样权重

weights = [0, 0, 0, 0, 0.5, 0.5]
df_left.sample(n=2, weights=weights)

3.采样后放回/不放回

df_left.sample(n=6, replace=True)     # 采样后放回
df_left.sample(n=6, replace=False)    # 采样后不放回

4.计算列的标准差

df_left['price'].std()

5.计算协方差

df_inner.cov()    # 数据表中所有字段间的协方差
df_left['price'].cov(df_inner['m-point'])    # 计算两个字段间的协方差

6.相关性分析

# 数据表的相关性分析
df_inner.corr()
# 两个字段的相关性分析
df_left['price'].corr(df_inner['m-point']) #相关系数在-1到1之间，接近1为正相关，接近-1为负相关，0为不相关

九.数据输出

分析后的数据可以输出为xlsx格式和csv格式

1.输出为Excel

df_left.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')

2.输出为CSV

df_left.to_csv('excel_to_python.csv')

sumatch

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
pandas基础

Pandas使用一个二维的数据结构DataFrame来表示表格式的数据。首先将pandas和numpy加载进来import pandas as pdimport numpy as np一. 生成数据表1.文件读取csv文件和xlsx分别用read_csv() 和 read_xlsx()df = pd.read_csv('./data/HR.csv')2.用pandas创建数据表...
复制链接

扫一扫