数据集:高考录取分数
下载地址,本文用于观察数据的变化趋势,对数据作相应的排序或可视化,为未来的录取分数做预测。
1. 字段描述
字段名称 | 字段类型 | 字段说明 |
---|---|---|
ID | 数值型 | 数据编号 |
学校 | 字符型 | 学校名称 |
学校编号 | 数值型 | 学校编号 |
文/理 | 字符型 | 文科/理科分数线 |
招生省份 | 字符型 | 分数线所对应的招生省份 |
录取分数1 | 字符型 | 2020录取分数 |
录取分数2 | 字符型 | 2019录取分数 |
录取分数3 | 字符型 | 2018录取分数 |
录取分数4 | 字符型 | 2017录取分数 |
录取分数5 | 字符型 | 2016录取分数 |
平均分数 | 数值型 | 近五年平均录取分数 |
2. 数据预处理
2.1 导包
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import os
import warnings
warnings.filterwarnings('ignore')
2.2 读取数据
df = pd.read_csv('高考录取分数数据集.csv')
2.3 预览数据
print(df.head())
结果
:
ID 学校 学校编号 文/理 招生省份 录取分数1 录取分数2 录取分数3 录取分数4 录取分数5 平均分数
0 0 北京大学 1 理 北京 680 686 ------ 678 ------ 681.333333
1 1 北京大学 1 理 天津 701 692 682 687 ------ 690.500000
2 2 北京大学 1 理 辽宁 693 688 690 687 ------ 689.500000
3 3 北京大学 1 理 吉林 694 685 692 670 692 686.600000
4 4 北京大学 1 理 黑龙江 700 688 688 ------ ------ 692.000000
2.4 规范字段名称
df=df.rename(columns={
'录取分数1':'2020录取分数','录取分数2':'2019录取分数','录取分数3':'2018录取分数','录取分数4':'2017录取分数','录取分数5':'2016录取分数','平均分数':'近五年平均录取分数'})
2.5 查看数据基本信息
df.info()
结果
:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46927 entries, 0 to 46926
Data columns (total 11 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 ID 46927 non-null int64
1 学校 46927 non-null object
2 学校编号 46927 non-null int64
3 文/理 46927 non-null object
4 招生省份 46927 non-null object
5 2020录取分数 46927 non-null object
6 2019录取分数 46927 non-null object
7 2018录取分数 46927 non-null object
8 2017录取分数 46927 non-null object
9 2016录取分数 46927 non-null object
10 近五年平均录取分数 46927 non-null float64
dtypes: float64(1), int64(2), object(8)
memory usage: 3.9+ MB
2.6 查看重复值
print(df.duplicated().sum())
结果
:
0
2.7 查看缺失值
print(df.isnull().sum())
结果
:
ID 0
学校 0
学校编号 0
文/理 0
招生省份 0
2020录取分数 0
2019录取分数 0
2018录取分数 0
2017录取分数 0
2016录取分数 0
近五年平均录取分数 0
dtype: int64
2.8 数据集描述性信息
describe = df.describe()
print(describe)
结果
:
ID 学校编号 近五年平均录取分数
count 46927.000000 46927.000000 46927.000000
mean 35691.453023 1151.838536 394.217988
std 25234.788519 814.018187 118.507112