sklearn技巧

  1. 分桶
    1. 按照取值范围均分成几个区间
import pandas.core.algorithms as algos
import pandas as pd

bins = algos.quantile(numpy.unique(train_data[item]), numpy.linspace(0, 1, 10))
train_data[item] = pd.tools.tile._bins_to_cuts(train_data[item], bins, include_lowest=True)
  1. 按照分位数分成几个区间
train_data[item] = train_data[item].apply(own_bins,args=(train_data[item],))
def own_bins(x, origin_data):
    for i in range(0, 11, 1):
        if x <= origin_data.quantile(i*0.1):
            return i + 1
    return 10
  1. 按照4分位做最大值和最小值限制
print train_data[item].quantile(0.75)
print train_data[item].quantile(0.25)
upper = train_data[item].quantile(0.25) - 1.5 * (
train_data[item].quantile(0.75) - train_data[item].quantile(0.25))
lower = train_data[item].quantile(0.75) + 1.5 * (
train_data[item].quantile(0.75) - train_data[item].quantile(0.25))
train_data[item] = numpy.clip(train_data[item], upper, lower)
print train_data[item].describe()
print train_data[item].dtypes
Sklearn是一个流行的Python机器学习库,它提供了丰富的工具和算法,用于数据预处理、特征工程、模型选择和评估等任务。如果你想学习Sklearn,以下是一个学习路线的参考: 1. 首先,你可以先了解Sklearn的基本概念和常用函数。可以通过阅读官方文档、教程或者书籍来深入理解Sklearn的API和功能。 2. 掌握数据预处理技术。Sklearn提供了丰富的数据预处理方法,包括特征缩放、数据标准化、数据平衡等。你可以通过学习Sklearn的Preprocessing模块来了解和应用这些技术。 3. 学习不同类型的机器学习算法。Sklearn支持多种机器学习算法,包括分类、回归、聚类、降维等。你可以通过学习Sklearn的各个子模块(如Classification、Regression、Clustering等)来了解和应用这些算法。 4. 理解模型评估和选择方法。Sklearn提供了多种模型评估指标和交叉验证技术,可以帮助你评估模型性能并选择最合适的模型。你可以学习Sklearn的Model Evaluation模块来了解如何评估和选择模型。 5. 实践项目和案例研究。通过实际项目和案例研究,你可以将所学的Sklearn知识应用到实际情境中,并深入理解不同算法的应用场景和优缺点。 6. 持续学习和探索。Sklearn是一个不断更新和演进的库,你可以通过阅读官方文档、参与社区讨论和阅读相关论文等方式,持续学习和探索Sklearn的新特性和最佳实践。 综上所述,这是一个初学者学习Sklearn的基本路线。通过深入学习和实践,你可以逐渐掌握Sklearn的使用技巧和机器学习的基本原理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值