在本文中,我们将介绍如何使用线性回归来处理分组数据和虚拟变量回归。这两种技术都是因果推断中非常有用的工具。我们将首先介绍分组数据回归,然后介绍虚拟变量回归。
1. 分组数据回归
并非所有数据点的重要性都是相等的。下面基于ENEM数据集,我们发现大学校的分数比小学校的分数更高。这并不是说大学校更好。这仅仅是因为它们的大样本导致出现较小的方差。
enem数据下载enem_scores.csv
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy