数据集:高考录取分数

数据集:高考录取分数

下载地址,本文用于观察数据的变化趋势,对数据作相应的排序或可视化,为未来的录取分数做预测。

1. 字段描述

字段名称 字段类型 字段说明
ID 数值型 数据编号
学校 字符型 学校名称
学校编号 数值型 学校编号
文/理 字符型 文科/理科分数线
招生省份 字符型 分数线所对应的招生省份
录取分数1 字符型 2020录取分数
录取分数2 字符型 2019录取分数
录取分数3 字符型 2018录取分数
录取分数4 字符型 2017录取分数
录取分数5 字符型 2016录取分数
平均分数 数值型 近五年平均录取分数

2. 数据预处理

2.1 导包

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import os
import warnings
warnings.filterwarnings('ignore')

2.2 读取数据

df = pd.read_csv('高考录取分数数据集.csv')

2.3 预览数据

print(df.head())

结果

ID    学校  学校编号 文/理 招生省份 录取分数1 录取分数2   录取分数3   录取分数4   录取分数5        平均分数
0   0  北京大学     1   理   北京   680   686  ------     678  ------  681.333333
1   1  北京大学     1   理   天津   701   692     682     687  ------  690.500000
2   2  北京大学     1   理   辽宁   693   688     690     687  ------  689.500000
3   3  北京大学     1   理   吉林   694   685     692     670     692  686.600000
4   4  北京大学     1   理  黑龙江   700   688     688  ------  ------  692.000000

2.4 规范字段名称

df=df.rename(columns={
   '录取分数1':'2020录取分数','录取分数2':'2019录取分数','录取分数3':'2018录取分数','录取分数4':'2017录取分数','录取分数5':'2016录取分数','平均分数':'近五年平均录取分数'})

2.5 查看数据基本信息

df.info()

结果

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46927 entries, 0 to 46926
Data columns (total 11 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   ID         46927 non-null  int64  
 1   学校         46927 non-null  object 
 2   学校编号       46927 non-null  int64  
 3/46927 non-null  object 
 4   招生省份       46927 non-null  object 
 5   2020录取分数   46927 non-null  object 
 6   2019录取分数   46927 non-null  object 
 7   2018录取分数   46927 non-null  object 
 8   2017录取分数   46927 non-null  object 
 9   2016录取分数   46927 non-null  object 
 10  近五年平均录取分数  46927 non-null  float64
dtypes: float64(1), int64(2), object(8)
memory usage: 3.9+ MB

2.6 查看重复值

print(df.duplicated().sum())

结果

0

2.7 查看缺失值

print(df.isnull().sum())

结果

ID           0
学校           0
学校编号         0/0
招生省份         0
2020录取分数     0
2019录取分数     0
2018录取分数     0
2017录取分数     0
2016录取分数     0
近五年平均录取分数    0
dtype: int64

2.8 数据集描述性信息

describe = df.describe()
print(describe)

结果

ID          学校编号     近五年平均录取分数
count  46927.000000  46927.000000  46927.000000
mean   35691.453023   1151.838536    394.217988
std    25234.788519    814.018187    118.507112
min        0.000000      
  • 3
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DeeGLMath

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值