《应用商务统计分析》第三章 协方差分析

本章旨在通过教学评估数据分析的案例,介绍协方差分析统计回归模型的原理和应用。

目录

一、目的

二、数据来源和相关说明

三、数据清洗

四、描述性分析

五、模型分析

六、模型选择与预测


一、目的

  1. 找出影响最终教学评估成绩的因素; 
  2. 提出一个合理的绩效考核标准。

二、数据来源和相关说明

1.数据来源:北京大学光华管理学院的教学评估记录

import os
import pandas as pd
filePath = r'E:\CH3'
fileName = r'teaching.csv'
df_raw =  pd.read_csv(open(os.path.join(filePath, fileName)))

2.数据信息:时间范围:2002~2004年,数据量:340

print(df_raw.info())
print(df_raw.head())

3.变量信息

(1) 自变量/解释性变量:

  • 教员职称(title):助理教授、副教授、正教授教员;
  • 性别(gender):女、男;
  • 学生类别(student):本科生、MBA、研究生;
  • 年份(year):2002、2003、2004;
  • 学期(semester):春季、秋季;
  • 学生人数(size):3~136;(连续型)
# 离散变量
str_cols = ['title', 'gender', 'student', 'year', 'semester']
for col in str_cols:
    print(df_raw[col].value_counts().sort_index())
    print('-'*10)
# 连续变量
num_cols = ['size']
print(df_raw[num_cols].describe().T)

(2) 因变量:

  • 课程得分(score):2.56~5;(连续型)
y_col = 'score'
print(df_raw[[y_col]].describe().T)

三、数据清洗

原始数据已清洗好。

#原始数据已经清洗好,直接拷贝
df_clean = df_raw.copy() 

四、描述性分析

目的在于对数据进行初阶认识,并形成初步观点,但后续需对它们予以严格的分析和检验。

1.连续型变量

(1)自变量中只含有一个连续变量——班级人数(size),首先通过散点图探索其与因变量间关系;

df_clean.plot(x='size', y='score', kind='scatter')

(2)观察散点图,发现数据噪音很大,数据规律不明显,因此对其进行了初步离散化降噪处理(20步长的等距分箱),生成了新变量——班级规模(group);

df_clean['group
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值