《应用商务统计分析》第三章协方差分析

最新推荐文章于 2024-08-22 13:08:13 发布

喜东东cc

最新推荐文章于 2024-08-22 13:08:13 发布

阅读量764

点赞数 1

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/qq_34105362/article/details/112653360

版权

本章通过北京大学光华管理学院的教学评估数据，介绍了协方差分析在找出影响教学评估成绩因素中的应用。数据经过清洗后，对连续型变量进行了离散化处理，分析了班级规模、教员职称、性别、学生类别、年份和学期等因素对成绩的影响。最终采用多因素协方差分析模型，剔除不显著变量，进行了模型选择和预测。

摘要由CSDN通过智能技术生成

本章旨在通过教学评估数据分析的案例，介绍协方差分析统计回归模型的原理和应用。

一、目的

找出影响最终教学评估成绩的因素；
提出一个合理的绩效考核标准。

二、数据来源和相关说明

1.数据来源：北京大学光华管理学院的教学评估记录

import os
import pandas as pd
filePath = r'E:\CH3'
fileName = r'teaching.csv'
df_raw =  pd.read_csv(open(os.path.join(filePath, fileName)))

2.数据信息：时间范围：2002~2004年，数据量：340

print(df_raw.info())
print(df_raw.head())

3.变量信息

(1) 自变量/解释性变量：

教员职称(title)：助理教授、副教授、正教授教员；
性别(gender)：女、男；
学生类别(student)：本科生、MBA、研究生；
年份(year)：2002、2003、2004；
学期(semester)：春季、秋季；
学生人数(size)：3~136；（连续型）

# 离散变量
str_cols = ['title', 'gender', 'student', 'year', 'semester']
for col in str_cols:
    print(df_raw[col].value_counts().sort_index())
    print('-'*10)
# 连续变量
num_cols = ['size']
print(df_raw[num_cols].describe().T)

(2) 因变量：

课程得分(score)：2.56~5；（连续型）

y_col = 'score'
print(df_raw[[y_col]].describe().T)

三、数据清洗

原始数据已清洗好。

#原始数据已经清洗好，直接拷贝
df_clean = df_raw.copy()

四、描述性分析

目的在于对数据进行初阶认识，并形成初步观点，但后续需对它们予以严格的分析和检验。

1.连续型变量

（1）自变量中只含有一个连续变量——班级人数(size)，首先通过散点图探索其与因变量间关系；

df_clean.plot(x='size', y='score', kind='scatter')

（2）观察散点图，发现数据噪音很大，数据规律不明显，因此对其进行了初步离散化降噪处理

最低0.47元/天解锁文章

喜东东cc

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

《应用商务统计分析》第三章 协方差分析

一、目的

二、数据来源和相关说明

三、数据清洗

四、描述性分析

《应用商务统计分析》第三章协方差分析