随机森林来进行特征选择(Python代码实现)

参考来源:https://www.toutiao.com/a6644771438534328836/

当数据集的特征过多时,容易产生过拟合,可以用随机森林来在训练之后可以产生一个各个特征重要性的数据集,利用这个数据集,确定一个阈值,选出来对模型训练帮助最大的一些特征,筛选出重要变量后可以再训练模型;

数据集是从kaggle网站上下载的lend club数据,通过随机森林筛选出对预测是否逾期的重要性变量:

# 首先导入数据,查看数据集的基本情况:
df = pd.read_csv('loan.csv')
df.head()
df.shape
数据集共887379行,74列

å©ç¨éæºæ£®ææ¥è¿è¡ç¹å¾éæ©ï¼Python代ç å®ç°ï¼

#然后转换目标值,将Charged Off和Late (31-120 days归为坏客户1,其余归为0
df['loan_status'].unique()
df['y'] = df['loan_status'].map(lambda x: int((x == 'Charged Off') | (x == 'Late (31-120 days')))
df.drop('loan_status', axis=1,inplace=True)

å©ç¨éæºæ£®ææ¥è¿è¡ç¹å¾éæ©ï¼Python代ç å®ç°ï¼

接下来处理特征变量,先剔除一些对预测无关的贷后和贷中变量:

df.drop(['id', 'member_id', 'url','next_pymnt_d','last_pymnt_d',
 'pymnt_plan','last_credit_pull_d','total_rec_prncp',
 'total_rec_int','out_prncp','last_pymnt_amnt',
 'installment','total_pymnt_inv', 'total_rec_prncp',
 'total_rec_int'], axis=1,inplace=True)

再删除缺失值大于90%的变量:

df.dropna(thresh = len(df) * 0.1 , axis=1,inplace=True)

接下来补全缺失值,对缺失值较多变量,将缺失值作为一种状态,对缺失值较少的变量,数值型用平均值补全,类别型用众数补全:

#对于desc有描述的标为1,空值标为0
def Desc(x):
 if type(x).__name__ == 'float':
 return 0
 else:
 return 1
df['desc']= df['desc'].map(Desc)
#emp_title空值用“空值”补全
df['emp_title'] = df['emp_title'].fillna('missing')
'''mths_since_last_delinq,mths_since_last_record ,
mths_since_last_major_derog ,tot_coll_amt,tot_cur_bal,
total_rev_hi_lim 用-1代替'''
for col in ['mths_since_last_delinq','mths_since_last_record',
 'mths_since_last_major_derog','tot_coll_amt',
 'tot_cur_bal','total_rev_hi_lim']:
 df[col].fillna(-1,inplace=True)
#剩余缺失值较少的,数值型变量用平均值代替
for col in ['annual_inc','acc_now_delinq',
 'collections_12_mths_ex_med','total_acc',
 'pub_rec','open_acc','inq_last_6mths','delinq_2yrs',
 'revol_util']:
 df[col].fillna(df[col].mean(), inplace=True)

另外再构造一个衍生变量,算申请时间issue_d和第一次借贷时间earliest_cr_line之间的月份差值

import datetime
def ConvertDate(x):
 mth_dict = {'Jan': 1, 'Feb': 2, 'Mar': 3, 'Apr': 4, 'May': 5, 
 'Jun': 6, 'Jul': 7, 'Aug': 8, 'Sep': 9, 'Oct': 10,
 'Nov': 11, 'Dec': 12}
 yr = int(x[4:6])
 mth = mth_dict[x[:3]]
 return datetime.datetime(yr, mth, 1)
df['issue_d'] = df['issue_d'].map(lambda x :ConvertDate(x))
df['earliest_cr_line'] = df['earliest_cr_line'].map(lambda x :ConvertDate(x))
from dateutil.relativedelta import relativedelta
def MonthGap(earlyDate, lateDate):
 if lateDate > earlyDate:
 gap = relativedelta(lateDate, earlyDate)
 yr = gap.years
 mth = gap.months
 return yr*12 + mth
 else:
 return 0
df['earliest_cr_to_app'] = df.apply(lambda x : MonthGap(x.earliest_cr_line, x.issue_d),axis=1)
df.drop(['issue_d', 'earliest_cr_line'],axis=1, inplace=True)

因为决策树只能处理数值型和标称型变量,所以转换一下类别变量

'''因为本文只运用随机森林来判断变量的重要性,而树模型不需要One-Hot编码,
所以只对类型型变量LabelEncoding就可以'''
#term ,将months替换成空值
df['term']= df['term'].apply(lambda x :int(x.replace("months" , "")))
cols = df.select_dtypes(include=['O']).columns.tolist()
for col in cols:
 df[col] = preprocessing.LabelEncoder().fit_transform(df[col])

训练模型

#训练模型,这里随机森林模型参数都用默认值
y = df['y']
x = df.drop('y', axis=1)
clf = RandomForestClassifier()
clf.fit(x, df['y'])

å©ç¨éæºæ£®ææ¥è¿è¡ç¹å¾éæ©ï¼Python代ç å®ç°ï¼

筛选变量:

importance = clf.feature_importances_
indices = np.argsort(importance)[::-1]
features = x.columns
for f in range(x.shape[1]):
 print(("%2d) %-*s %f" % (f + 1, 30, features[f], importance[indices[f]])))

å©ç¨éæºæ£®ææ¥è¿è¡ç¹å¾éæ©ï¼Python代ç å®ç°ï¼

现在各变量对是否逾期的重要性就计算出来了,如果接下来运用这些变量预测是否逾期的模型是树模型或者朴素贝叶斯模型,就可以直接通过重要性大于某个阈值或者重要性排名大于某个某个阈值来筛选出变量训练模型了,如果是接下来用回归模型或者线性模型,还需要考虑各个变量之间的共线性

  • 2
    点赞
  • 72
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: 随机森林是决策树算法的一种集成算法,可以用于特征选择和分类问题。在这里,我们使用Python的scikit-learn库来实现随机森林进行特征选择代码。 首先,我们需要载入数据集和必要的库: ```python from sklearn.datasets import load_iris from sklearn.ensemble import RandomForestClassifier import numpy as np iris = load_iris() # 载入数据集 X = iris.data y = iris.target ``` 然后我们可以定义一个随机森林分类器并训练它: ```python rf = RandomForestClassifier(n_estimators=100) # 定义一个包含100棵树的随机森林分类器 rf.fit(X, y) # 训练随机森林分类器 ``` 接下来,我们可以调用feature_importances_属性来获取每个特征对预测结果的重要性: ```python importances = rf.feature_importances_ # 获取特征重要性 indices = np.argsort(importances)[::-1] # 将重要性从高到低排序 ``` 最后,我们可以输出每个特征的重要性排名和重要性指标: ```python for f in range(X.shape[1]): print("%2d) %-*s %f" % (f + 1, 30, iris.feature_names[indices[f]], importances[indices[f]])) ``` 上述代码将按照从最重要到最不重要的顺序输出每个特征的贡献百分比。我们可以根据正向选择、反向选择或者一个自定义的模型选择特征。 值得注意的是,随机森林是一种自带特征选择能力的算法,因此在特征选择时不需要手动选择特征。如果把随机森林用于分类问题,它也可以自动选择最优特征,并把其它无用的特征剔除掉,从而提高模型的精度和效率。 ### 回答2: 随机森林是一种常用的机器学习算法,可以用于分类和回归问题。在实际应用中,我们需要从大量的特征中选择出最为关键的特征,这时候可以使用随机森林进行特征选择。 在Python中,可以使用scikit-learn库中的随机森林算法进行特征选择。具体代码如下: 首先导入必要的库: import numpy as np import pandas as pd from sklearn.ensemble import RandomForestClassifier 接着导入数据并进行预处理: # 导入数据 data = pd.read_csv('data.csv') # 将数据分为特征和标签 X = data.drop('label', axis=1) # 特征 y = data['label'] # 标签 # 将标签编码为数字 y = pd.factorize(y)[0] # 将数据划分为训练集和测试集 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) 接着使用随机森林进行特征选择: # 创建随机森林分类器 rf = RandomForestClassifier(n_estimators=100) # 训练模型 rf.fit(X_train, y_train) # 提取特征的重要性得分 feature_importances = rf.feature_importances_ # 将得分与特征名一一对应 features = X.columns.tolist() feature_importances = pd.DataFrame({'feature': features, 'importance': feature_importances}) # 根据重要性得分排序 feature_importances = feature_importances.sort_values('importance', ascending=False).reset_index(drop=True) # 输出排序后的特征重要性得分 print(feature_importances) 根据特征的重要性得分可以判断出哪些特征对于分类更为重要,这样可以帮助我们选择最为关键的特征来进行分析和建模。 ### 回答3: 随机森林是常用的机器学习算法之一,可以用于分类和回归问题。特征选择是机器学习中非常重要的一个步骤,它可以在不影响模型性能的情况下,提高模型的训练效率和精度。下面是关于随机森林进行特征选择Python代码。 首先需要导入所需的库: ``` import numpy as np import pandas as pd from sklearn.ensemble import RandomForestClassifier ``` 然后加载数据,获取特征和标签: ``` # 加载数据 data = pd.read_csv('data.csv') # 获取特征和标签 X = data.drop(['label'], axis=1) y = data['label'] ``` 接着将数据集分为训练集和测试集: ``` from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3) ``` 随机森林需要设置一些参数,不同的数据集可能需要不同的参数值。这里我们设置n_estimators为100,表示森林中有100棵树。 ``` # 设置随机森林分类器参数 rf = RandomForestClassifier(n_estimators=100, random_state=1) ``` 然后使用fit方法训练随机森林模型: ``` # 训练随机森林模型 rf.fit(X_train, y_train) ``` 随机森林在训练过程中会计算每个特征的重要性,并将其存储在feature_importances_属性中。为了查看每个特征的重要性,可以使用如下代码: ``` # 查看特征重要性 importances = rf.feature_importances_ indices = np.argsort(importances)[::-1] for f in range(X_train.shape[1]): print("%2d) %-*s %f" % (f + 1, 30, X_train.columns[indices[f]], importances[indices[f]])) ``` 该代码会输出每个特征的重要性,越重要的特征排名越靠前。 另外,也可以使用SelectFromModel类来选择重要特征: ``` from sklearn.feature_selection import SelectFromModel sfm = SelectFromModel(rf, threshold=0.1) sfm.fit(X_train, y_train) X_important_train = sfm.transform(X_train) X_important_test = sfm.transform(X_test) ``` 以上代码会根据重要性阈值选择重要特征,并将其存储在新的变量中。之后可以使用X_important_train和y_train来训练模型。 总之,随机森林是一种有效的特征选择方法,通过计算每个特征的重要性,可以选择重要特征提高模型的准确度和效率。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值