看了下https://www.kaggle.com/juliencs/house-prices-advanced-regression-techniques/a-study-on-regression-applied-to-the-ames-dataset
里面说了下如对数据集进行预处理、特征工程、线性回归、ridge、lasso和elastic net。线性回归、ridge、lasso和elastic net的一些数学内容可以参考http://scikit-learn.org/stable/modules/linear_model.html#ridge-regression。
巧合的是,第一个链接里面也说到了如何区分continuous和categorical variables的。
categorical_features = train.select_dtypes(include = ["object"]).columns
numerical_features = train.select_dtypes(exclude = ["object"]).columns
也非常巧妙。
在用回归预测房价之前,所有的categorical variables被转化成了数字,并对类型进行了简化——例如原来有9级的被化简为三级:1、2、3。
如果对α值进行选择也值得参考。