在学习统计学的时候,留意到有一个算法叫做逐步回归 (stepwise regression)。简单来说,就是数据集中的特征的重要性不同,这方法可以把它们排序,找出每一个特征对预测结果的重要性。
以下代码将会逐步说明从得到数据集开始,应怎么做才可以找到特征重要性的排序。(这次我们假设做一个二分类的任务)
1. 导入需要用到的工具
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import LabelEncoder
from sklearn import linear_model
from sklearn.metrics import roc_auc_score
import warnings
warnings.filterwarnings('ignore')
2. 取得数据集, 并且把一些特征已经很明显是不要的特征先行drop掉
df = pd.read_csv('df.csv')
df = df.drop(['fea1', 'fea3', 'fea4'], axis=1)
3. 为数据分类 (包括是CATEGORY还是NUMERIC),这里只分类x值, 不需要把目标值也分类
CATEGORY = ['fea5', 'fea6', 'fea7']
NUMERIC = ['fea2', 'fea8', 'fea9', 'fea10']
</