python特征筛选_机器学习实战|特征筛选&案例

特征筛选是模型训练前很重要的一步。

from feature_selector import FeatureSelector

import pandas as pd

案例一:Air Quality Dataset

air_quality = pd.read_csv('data/AirQualityUCI.csv')

air_quality['Date'] = pd.to_datetime(air_quality['Date'])

air_quality['Date'] = (air_quality['Date'] - air_quality['Date'].min()).dt.total_seconds()

air_quality['Time'] = [int(x[:2]) for x in air_quality['Time']]

air_quality.head()

labels = air_quality['PT08.S5(O3)']

air_quality = air_quality.drop(columns = 'PT08.S5(O3)')

fs = FeatureSelector(data = air_quality, labels = labels)

fs.identify_all(selection_params = {'missing_threshold': 0.5, 'correlation_threshold': 0.7,

'task': 'regression', 'eval_metric': 'l2',

'cumulative_importance': 0.9})

。。。

fs.plot_collinear(plot_all=True)

案例二:Insurance Dataset

保险数据集

insurance = pd.read_csv('data/caravan-insurance-challenge.csv')

insurance = insurance[insurance['ORIGIN'] == 'train']

labels = insurance['CARAVAN']

insurance = insurance.drop(columns = ['ORIGIN', 'CARAVAN'])

insurance.head()

fs = FeatureSelector(data = insurance, labels = labels)

fs.identify_all(selection_params = {'missing_threshold': 0.8, 'correlation_threshold': 0.85,

'task': 'classification', 'eval_metric': 'auc',

'cumulative_importance': 0.8})

insurance_missing_zero = fs.remove(methods = ['missing', 'zero_importance'])

to_remove = fs.check_removal()

fs.feature_importances.head()

insurance_removed = fs.remove(methods = 'all', keep_one_hot=False)

—END—

微信公众号:数据分析联盟

加群微信助手:lestat911

——

手机淘宝用户复制下面:

【Python全套代码 实战 图片 数据演示 案例】 http:// m.tb.cn/h.34wSLrP 点击链接,再选择浏览器咑閞;或復·制这段描述€hi79bdU0FGR€后到:point_right:淘♂寳♀:point_left:[来自超级会员的分享]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值