数据分析——从入门到精通(六)

最新推荐文章于 2024-05-20 20:26:39 发布

今晚务必早点睡

最新推荐文章于 2024-05-20 20:26:39 发布

阅读量453

点赞数

分类专栏： Pandas 数据分析文章标签： python 数据分析大数据

本文链接：https://blog.csdn.net/m0_57021623/article/details/124016875

版权

Pandas 同时被 2 个专栏收录

24 篇文章 2 订阅

订阅专栏

数据分析

24 篇文章 4 订阅

订阅专栏

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

练习

假设a是期中考试成绩，b是期末考试成绩，请自由创建b,并将其与a相加，求期中期末的平均值
假设张三期中考试数学被发现作弊，要记为0分，如何实现？
张六因为举报张三作弊有功，期中考试所有科目成绩加5分，如何实现？
后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生a的科目都加20分，如何实现？
张二的语文，张四的物理，张六的地理未考，设置为NAN(注意：0和NAN不一样)

# 科目
columns = ['语文','数学','英语','物理','化学','生物','历史','地理']
# 索引
index =['张一','张二','张三','张四','张五','张六']
# 在1-150之间，创建六行八列
a = DataFrame(np.random.randint(1,151,size=(6,8)),index,columns,dtype=int)
a

	语文	数学	英语	物理	化学	生物	历史	地理
张一	133	23	68	105	60	144	90	42
张二	95	1	135	146	142	130	62	148
张三	31	28	38	115	42	50	113	59
张四	6	147	86	145	124	73	34	66
张五	67	9	42	16	47	34	44	100
张六	79	75	98	121	51	104	141	145

# 创建b,期末考试成绩
b = DataFrame(np.random.randint(1,151,size=(6,8)),index,columns,dtype=int)
b

	语文	数学	英语	物理	化学	生物	历史	地理
张一	95	7	148	5	149	59	45	44
张二	55	21	49	103	104	86	56	4
张三	7	33	35	57	55	118	111	26
张四	78	130	90	135	37	57	125	94
张五	75	66	39	39	26	16	53	55
张六	13	68	16	96	61	74	124	1

# 把期中成绩a和期末成绩b相加，算平均成绩
average = (a+b)/2
average

	语文	数学	英语	物理	化学	生物	历史	地理
张一	114.0	15.0	108.0	55.0	104.5	101.5	67.5	43.0
张二	75.0	11.0	92.0	124.5	123.0	108.0	59.0	76.0
张三	19.0	30.5	36.5	86.0	48.5	84.0	112.0	42.5
张四	42.0	138.5	88.0	140.0	80.5	65.0	79.5	80.0
张五	71.0	37.5	40.5	27.5	36.5	25.0	48.5	77.5
张六	46.0	71.5	57.0	108.5	56.0	89.0	132.5	73.0

# 假设张三期中考试数学被发现作弊，要记为0分，如何实现？
# 期中考试成绩a
a

	语文	数学	英语	物理	化学	生物	历史	地理
张一	133	23	68	105	60	144	90	42
张二	95	1	135	146	142	130	62	148
张三	31	28	38	115	42	50	113	59
张四	6	147	86	145	124	73	34	66
张五	67	9	42	16	47	34	44	100
张六	79	75	98	121	51	104	141	145

# 张三期中考试数学被发现作弊，要记为0分 ——方式一
a.loc['张三','数学'] = 0
a

	语文	数学	英语	物理	化学	生物	历史	地理
张一	133	23	68	105	60	144	90	42
张二	95	1	135	146	142	130	62	148
张三	31	0	38	115	42	50	113	59
张四	6	147	86	145	124	73	34	66
张五	67	9	42	16	47	34	44	100
张六	79	75	98	121	51	104	141	145

# 张三期中考试数学被发现作弊，要记为0分 ——方式二
# - 隐式索引
# - df.iloc[行索引位置，列索引位置]  # 两个位置中间都可以进行索引操作
a.loc['张三','数学'] = 66
a

	语文	数学	英语	物理	化学	生物	历史	地理
张一	133	23	68	105	60	144	90	42
张二	95	1	135	146	142	130	62	148
张三	31	66	38	115	42	50	113	59
张四	6	147	86	145	124	73	34	66
张五	67	9	42	16	47	34	44	100
张六	79	75	98	121	51	104	141	145

# 张三期中考试数学被发现作弊，要记为0分 ——方式二
a.iloc[2,1] = 0
a

	语文	数学	英语	物理	化学	生物	历史	地理
张一	133	23	68	105	60	144	90	42
张二	95	1	135	146	142	130	62	148
张三	31	0	38	115	42	50	113	59
张四	6	147	86	145	124	73	34	66
张五	67	9	42	16	47	34	44	100
张六	79	75	98	121	51	104	141	145

# 张六因为举报张三作弊有功，期中考试所有科目成绩加5分，如何实现？
a.loc['张六'] += 5
a

	语文	数学	英语	物理	化学	生物	历史	地理
张一	133	23	68	105	60	144	90	42
张二	95	1	135	146	142	130	62	148
张三	31	0	38	115	42	50	113	59
张四	6	147	86	145	124	73	34	66
张五	67	9	42	16	47	34	44	100
张六	89	85	108	131	61	114	151	155

	语文	数学	英语	物理	化学	生物	历史	地理
张一	173	63	108	145	100	184	130	82
张二	135	41	175	186	182	170	102	188
张三	71	40	78	155	82	90	153	99
张四	46	187	126	185	164	113	74	106
张五	107	49	82	56	87	74	84	140
张六	129	125	148	171	101	154	191	195

#  后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生科目都加20分，如何实现？
a +=20
a

	语文	数学	英语	物理	化学	生物	历史	地理
张一	213	103	148	185	140	224	170	122
张二	175	81	215	226	222	210	142	228
张三	111	80	118	195	122	130	193	139
张四	86	227	166	225	204	153	114	146
张五	147	89	122	96	127	114	124	180
张六	169	165	188	211	141	194	231	235

# 张二的语文，张四的物理，张六的地理未考，设置为NAN(注意：0和NAN不一样)
# 【注意】：不连续选择元素标签时，loc()支持
a.loc[['张二','张四','张六']]

	语文	数学	英语	物理	化学	生物	历史	地理
张二	175	81	215	226	222	210	142	228
张四	86	227	166	225	204	153	114	146
张六	169	165	188	211	141	194	231	235

a.loc[['张二','张四','张六'],['语文','物理','地理']]

	语文	物理	地理
张二	175	226	228
张四	86	225	146
张六	169	211	235

#  张二的语文，张四的物理，张六的地理未考，设置为NAN(注意：0和NAN不一样)
for row,col in [
    ('张二','语文'),
    ('张四','物理'),
    ('张六','地理')
]:
    a.loc[row,col] = np.nan
a

	语文	数学	英语	物理	化学	生物	历史	地理
张一	213.0	103	148	185.0	140	224	170	122.0
张二	NaN	81	215	226.0	222	210	142	228.0
张三	111.0	80	118	195.0	122	130	193	139.0
张四	86.0	227	166	NaN	204	153	114	146.0
张五	147.0	89	122	96.0	127	114	124	180.0
张六	169.0	165	188	211.0	141	194	231	NaN

	语文	数学	英语	物理	化学	生物	历史	地理
张一	213.0	103	148	185.0	140	224	170	122.0
张二	NaN	81	215	226.0	222	210	142	228.0
张三	111.0	80	118	195.0	122	130	193	139.0
张四	86.0	227	166	NaN	204	153	114	146.0
张五	147.0	89	122	96.0	127	114	124	180.0
张六	169.0	165	188	211.0	141	194	231	NaN

# 还原
a = DataFrame(np.random.randint(1,151,size=(6,8)),index,columns,dtype=int)
a

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135	3	84	63	11	70	100
张二	42	76	56	149	17	133	68	98
张三	104	63	16	64	41	73	27	14
张四	10	136	32	132	84	92	24	59
张五	22	32	62	137	27	139	53	121
张六	20	91	89	97	17	75	52	6

# 把上面例子封装   张二的语文，张四的物理，张六的地理未考，设置为NAN
# copy=False  ——不创建副本
def nan(df,*data,copy=True):
    """
    @df 是DataFrame数据对象
    @data 是数据的元素类型是tuple (行标签，列标签)
    @copy 是bool值，False表示在原有的df中修改，True表示创建副本    
    """
    df_ = df.copy() if copy else df
    for row,col in data:
        df_.loc[row,col] = np.nan
        
    if copy:
        return df_
    else:
        return df

c =nan(a,('张二','语文'),('张四','物理'),('张六','地理'))  # 默认创建的副本
c

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138.0	135	3	84.0	63	11	70	100.0
张二	NaN	76	56	149.0	17	133	68	98.0
张三	104.0	63	16	64.0	41	73	27	14.0
张四	10.0	136	32	NaN	84	92	24	59.0
张五	22.0	32	62	137.0	27	139	53	121.0
张六	20.0	91	89	97.0	17	75	52	NaN

# 原来的a没有改变
a

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135	3	84	63	11	70	100
张二	42	76	56	149	17	133	68	98
张三	104	63	16	64	41	73	27	14
张四	10	136	32	132	84	92	24	59
张五	22	32	62	137	27	139	53	121
张六	20	91	89	97	17	75	52	6

# 例：张三的数学为NAN 
d = nan(a,('张三','数学'))
d

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	100
张二	42	76.0	56	149	17	133	68	98
张三	104	NaN	16	64	41	73	27	14
张四	10	136.0	32	132	84	92	24	59
张五	22	32.0	62	137	27	139	53	121
张六	20	91.0	89	97	17	75	52	6

a   # 因为创建副本，所有原有数据没有发生变化

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135	3	84	63	11	70	100
张二	42	76	56	149	17	133	68	98
张三	104	63	16	64	41	73	27	14
张四	10	136	32	132	84	92	24	59
张五	22	32	62	137	27	139	53	121
张六	20	91	89	97	17	75	52	6

# 例：张三的数学为NAN  ，不创立副本，在原有数组上面做
w = nan(a,('张三','数学'),copy=False)
w

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	100
张二	42	76.0	56	149	17	133	68	98
张三	104	NaN	16	64	41	73	27	14
张四	10	136.0	32	132	84	92	24	59
张五	22	32.0	62	137	27	139	53	121
张六	20	91.0	89	97	17	75	52	6

a   # 原有数据也发生变化

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	100
张二	42	76.0	56	149	17	133	68	98
张三	104	NaN	16	64	41	73	27	14
张四	10	136.0	32	132	84	92	24	59
张五	22	32.0	62	137	27	139	53	121
张六	20	91.0	89	97	17	75	52	6

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	100
张二	42	76.0	56	149	17	133	68	98
张三	104	NaN	16	64	41	73	27	14
张四	10	136.0	32	132	84	92	24	59
张五	22	32.0	62	137	27	139	53	121
张六	20	91.0	89	97	17	75	52	6

# 把张一的地理设置为NAN
#  None在DataFrame中，也表示NAN
a.loc['张一','地理'] =None
a

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	NaN
张二	42	76.0	56	149	17	133	68	98.0
张三	104	NaN	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

丢失数据的五种表示方法(关于NAN值的理解，可以理解为缺失的数据)

None 不常见
np.nan(NaN) 不常见
np.NaN 常见
np.nan 常见
np.NAN 常见

a.isna()

	语文	数学	英语	物理	化学	生物	历史	地理
张一	False	False	False	False	False	False	False	True
张二	False	False	False	False	False	False	False	False
张三	False	True	False	False	False	False	False	False
张四	False	False	False	False	False	False	False	False
张五	False	False	False	False	False	False	False	False
张六	False	False	False	False	False	False	False	False

a.isna().any()

语文    False
数学     True
英语    False
物理    False
化学    False
生物    False
历史    False
地理     True
dtype: bool

# 如果Series对象的数据是bool内容，标签是列标签是，使用.loc[:,series_bools]
# 如果标签是行标签时，使用[series_bools],或.loc[series_bool]
m = a.loc[:,a.isna().any()]
m

	数学	地理
张一	135.0	NaN
张二	76.0	98.0
张三	NaN	14.0
张四	136.0	59.0
张五	32.0	121.0
张六	91.0	6.0

m.isna().any(axis=1)

张一     True
张二    False
张三     True
张四    False
张五    False
张六    False
dtype: bool

m[m.isna().any(axis=1)]

	数学	地理
张一	135.0	NaN
张三	NaN	14.0

异常值的处理

isnull()
notnull()
dropna():过滤丢失的数据
fillna():填充丢失数据
前置填充 axis=0 行
后置填充 axis=1 列（速记：上下用0，左右用1）

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	NaN
张二	42	76.0	56	149	17	133	68	98.0
张三	104	NaN	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

a.dropna() # a.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
#  默认axis=0,把带NAN的所有行删除 
# axis值的含义
#   * 0, or 'index' : Drop rows which contain missing values.
#   * 1, or 'columns' : Drop columns which contain missing value.

	语文	数学	英语	物理	化学	生物	历史	地理
张二	42	76.0	56	149	17	133	68	98.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	NaN
张二	42	76.0	56	149	17	133	68	98.0
张三	104	NaN	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

# axis=1 时删除的是列
a.dropna(axis=1)

	语文	英语	物理	化学	生物	历史
张一	138	3	84	63	11	70
张二	42	56	149	17	133	68
张三	104	16	64	41	73	27
张四	10	32	132	84	92	24
张五	22	62	137	27	139	53
张六	20	89	97	17	75	52

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	NaN
张二	42	76.0	56	149	17	133	68	98.0
张三	104	NaN	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

"""
how : {'any', 'all'}, default 'any'
    Determine if row or column is removed from DataFrame, when we have
    at least one NA or all NA.

    * 'any' : If any NA values are present, drop that row or column.
    * 'all' : If all values are NA, drop that row or column.
"""
a.dropna(axis=1,how='any')  # axis=1,how='any' 这一列，只要有一个值是NAN,就删除这一列

	语文	英语	物理	化学	生物	历史
张一	138	3	84	63	11	70
张二	42	56	149	17	133	68
张三	104	16	64	41	73	27
张四	10	32	132	84	92	24
张五	22	62	137	27	139	53
张六	20	89	97	17	75	52

a.dropna(axis=1,how='all')  # axis=1,how='any' 这一列，所有的值是NAN,才删除这一列

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	NaN
张二	42	76.0	56	149	17	133	68	98.0
张三	104	NaN	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

"""
inplace : bool, default False
    If True, do operation inplace and return None.
"""
# inplace属性，false时，表示副本上操作，true时，表示原数据上操作

'\ninplace : bool, default False\n    If True, do operation inplace and return None.\n'

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	NaN
张二	42	76.0	56	149	17	133	68	98.0
张三	104	NaN	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

aa = a.copy()
aa.dropna(axis=1,how='any',inplace=True) #  axis=1 删列

aa

	语文	英语	物理	化学	生物	历史
张一	138	3	84	63	11	70
张二	42	56	149	17	133	68
张三	104	16	64	41	73	27
张四	10	32	132	84	92	24
张五	22	62	137	27	139	53
张六	20	89	97	17	75	52

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	NaN
张二	42	76.0	56	149	17	133	68	98.0
张三	104	NaN	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

aa

	语文	英语	物理	化学	生物	历史
张一	138	3	84	63	11	70
张二	42	56	149	17	133	68
张三	104	16	64	41	73	27
张四	10	32	132	84	92	24
张五	22	62	137	27	139	53
张六	20	89	97	17	75	52

异常值填充

fillna() 填充nan值数据

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	NaN
张二	42	76.0	56	149	17	133	68	98.0
张三	104	NaN	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

# 以固定值的方式填充
# 给所有nan填充0
a.fillna(0)

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	0.0
张二	42	76.0	56	149	17	133	68	98.0
张三	104	0.0	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	NaN
张二	42	76.0	56	149	17	133	68	98.0
张三	104	NaN	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

# 现有值填充
# 可以用nan上下左右旁边值填充  列前，列后，行前，行后
# method的方法  {'backfill', 'bfill', 'pad', 'ffill', None}
# backfill——后填充，简写bfill
# ffill——前填充，pad

# 列前填充
#  axis {0 or 'index', 1 or 'columns'}
a.fillna(method="ffill",axis=1)    # 上下用0，左右用1

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138.0	135.0	3.0	84.0	63.0	11.0	70.0	70.0
张二	42.0	76.0	56.0	149.0	17.0	133.0	68.0	98.0
张三	104.0	104.0	16.0	64.0	41.0	73.0	27.0	14.0
张四	10.0	136.0	32.0	132.0	84.0	92.0	24.0	59.0
张五	22.0	32.0	62.0	137.0	27.0	139.0	53.0	121.0
张六	20.0	91.0	89.0	97.0	17.0	75.0	52.0	6.0

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	NaN
张二	42	76.0	56	149	17	133	68	98.0
张三	104	NaN	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

# 行前填充
a.fillna(method="ffill",axis=0)   # 在一个列上，上面值填充下面值，因为张一的地理上面没值，所以没有填充

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	NaN
张二	42	76.0	56	149	17	133	68	98.0
张三	104	76.0	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138	135.0	3	84	63	11	70	NaN
张二	42	76.0	56	149	17	133	68	98.0
张三	104	NaN	16	64	41	73	27	14.0
张四	10	136.0	32	132	84	92	24	59.0
张五	22	32.0	62	137	27	139	53	121.0
张六	20	91.0	89	97	17	75	52	6.0

# 列后填充
a.fillna(method="bfill",axis=1)  # 在一个行上，后面值填充前面值，因为张一的地理后面没值，所以没有填充

	语文	数学	英语	物理	化学	生物	历史	地理
张一	138.0	135.0	3.0	84.0	63.0	11.0	70.0	NaN
张二	42.0	76.0	56.0	149.0	17.0	133.0	68.0	98.0
张三	104.0	16.0	16.0	64.0	41.0	73.0	27.0	14.0
张四	10.0	136.0	32.0	132.0	84.0	92.0	24.0	59.0
张五	22.0	32.0	62.0	137.0	27.0	139.0	53.0	121.0
张六	20.0	91.0	89.0	97.0	17.0	75.0	52.0	6.0

今晚务必早点睡

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据分析——从入门到精通(六)

import numpy as npimport pandas as pdfrom pandas import Series,DataFrame练习假设a是期中考试成绩，b是期末考试成绩，请自由创建b,并将其与a相加，求期中期末的平均值假设张三期中考试数学被发现作弊，要记为0分，如何实现？张六因为举报张三作弊有功，期中考试所有科目成绩加5分，如何实现？后来老师发现有一道题出错了，为了安抚学生情绪，给每位学生a的科目都加20分，如何实现？张二的语文，张四的物理，张六的地理未考，设置为NAN
复制链接

扫一扫