数据集：高考录取分数

DeeGLMath

已于 2024-04-06 15:13:30 修改

阅读量4.3k

点赞数 3

分类专栏：数据集汇总文章标签： python 数据集折线图 matplotlib

于 2021-09-24 23:26:35 首次发布

本文链接：https://blog.csdn.net/linjing_zyq/article/details/120462090

版权

本文分析了高考录取分数数据集，包括字段描述、数据预处理、统计C9联盟在鄂招生分数、顶尖学校分数变化以及各省份录取情况。通过预处理数据，观察了清华大学、北京大学及武汉大学的录取分数线趋势，并揭示了上海、江苏和海南的特殊招录模式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据集：高考录取分数

下载地址，本文用于观察数据的变化趋势，对数据作相应的排序或可视化，为未来的录取分数做预测。

1. 字段描述

字段名称	字段类型	字段说明
ID	数值型	数据编号
学校	字符型	学校名称
学校编号	数值型	学校编号
文/理	字符型	文科/理科分数线
招生省份	字符型	分数线所对应的招生省份
录取分数1	字符型	2020录取分数
录取分数2	字符型	2019录取分数
录取分数3	字符型	2018录取分数
录取分数4	字符型	2017录取分数
录取分数5	字符型	2016录取分数
平均分数	数值型	近五年平均录取分数

2. 数据预处理

2.1 导包

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import os
import warnings
warnings.filterwarnings('ignore')

2.2 读取数据

df = pd.read_csv('高考录取分数数据集.csv')

2.3 预览数据

print(df.head())

结果：

ID    学校  学校编号 文/理 招生省份 录取分数1 录取分数2   录取分数3   录取分数4   录取分数5        平均分数
0   0  北京大学     1   理   北京   680   686  ------     678  ------  681.333333
1   1  北京大学     1   理   天津   701   692     682     687  ------  690.500000
2   2  北京大学     1   理   辽宁   693   688     690     687  ------  689.500000
3   3  北京大学     1   理   吉林   694   685     692     670     692  686.600000
4   4  北京大学     1   理  黑龙江   700   688     688  ------  ------  692.000000

2.4 规范字段名称

df=df.rename(columns={
   '录取分数1':'2020录取分数','录取分数2':'2019录取分数','录取分数3':'2018录取分数','录取分数4':'2017录取分数','录取分数5':'2016录取分数','平均分数':'近五年平均录取分数'})

2.5 查看数据基本信息

df.info()

结果：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46927 entries, 0 to 46926
Data columns (total 11 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   ID         46927 non-null  int64  
 1   学校         46927 non-null  object 
 2   学校编号       46927 non-null  int64  
 3   文/理        46927 non-null  object 
 4   招生省份       46927 non-null  object 
 5   2020录取分数   46927 non-null  object 
 6   2019录取分数   46927 non-null  object 
 7   2018录取分数   46927 non-null  object 
 8   2017录取分数   46927 non-null  object 
 9   2016录取分数   46927 non-null  object 
 10  近五年平均录取分数  46927 non-null  float64
dtypes: float64(1), int64(2), object(8)
memory usage: 3.9+ MB

2.6 查看重复值

print(df.duplicated().sum())

结果：

2.7 查看缺失值

print(df.isnull().sum())

结果：

ID           0
学校           0
学校编号         0
文/理          0
招生省份         0
2020录取分数     0
2019录取分数     0
2018录取分数     0
2017录取分数     0
2016录取分数     0
近五年平均录取分数    0
dtype: int64

2.8 数据集描述性信息

describe = df.describe()
print(describe)

结果：

ID          学校编号     近五年平均录取分数
count  46927.000000  46927.000000  46927.000000
mean   35691.453023   1151.838536    394.217988
std    25234.788519    814.018187    118.507112