本章旨在通过教学评估数据分析的案例,介绍协方差分析统计回归模型的原理和应用。
目录
一、目的
- 找出影响最终教学评估成绩的因素;
- 提出一个合理的绩效考核标准。
二、数据来源和相关说明
1.数据来源:北京大学光华管理学院的教学评估记录
import os
import pandas as pd
filePath = r'E:\CH3'
fileName = r'teaching.csv'
df_raw = pd.read_csv(open(os.path.join(filePath, fileName)))
2.数据信息:时间范围:2002~2004年,数据量:340
print(df_raw.info())
print(df_raw.head())
3.变量信息
(1) 自变量/解释性变量:
- 教员职称(title):助理教授、副教授、正教授教员;
- 性别(gender):女、男;
- 学生类别(student):本科生、MBA、研究生;
- 年份(year):2002、2003、2004;
- 学期(semester):春季、秋季;
- 学生人数(size):3~136;(连续型)
# 离散变量
str_cols = ['title', 'gender', 'student', 'year', 'semester']
for col in str_cols:
print(df_raw[col].value_counts().sort_index())
print('-'*10)
# 连续变量
num_cols = ['size']
print(df_raw[num_cols].describe().T)
(2) 因变量:
- 课程得分(score):2.56~5;(连续型)
y_col = 'score'
print(df_raw[[y_col]].describe().T)
三、数据清洗
原始数据已清洗好。
#原始数据已经清洗好,直接拷贝
df_clean = df_raw.copy()
四、描述性分析
目的在于对数据进行初阶认识,并形成初步观点,但后续需对它们予以严格的分析和检验。
1.连续型变量
(1)自变量中只含有一个连续变量——班级人数(size),首先通过散点图探索其与因变量间关系;
df_clean.plot(x='size', y='score', kind='scatter')
(2)观察散点图,发现数据噪音很大,数据规律不明显,因此对其进行了初步离散化降噪处理