reshape功能介绍_scikit-learn的5大新功能

最新推荐文章于 2024-04-02 17:17:55 发布

weixin_29179583

最新推荐文章于 2024-04-02 17:17:55 发布

阅读量223

点赞数

文章标签： reshape功能介绍

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29179583/article/details/112268382

版权

CDA数据分析师出品

Python的主要功能机器学习库的最新版本包括许多新功能和错误修复。你可以从Scikit-learn官方0.22 发行要点中找到有关这些更改的完整说明。

通过pip完成安装更新：

pip install --upgrade scikit-learn

或conda：

conda install scikit-learn

最新的Scikit-learn中有5个新功能值得你注意。

1.新的绘图API

新的绘图API可用，无需重新计算即可正常工作。支持的图包括一些相关图，混淆矩阵和ROC曲线。下面是Scikit-learn用户指南中的示例，对API进行了演示：

from sklearn.model_selection import train_test_split

from sklearn.svm import SVC

from sklearn.metrics import plot_roc_curve

from sklearn.datasets import load_wine

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

svc = SVC(random_state=42)

svc.fit(X_train, y_train)

svc_disp = plot_roc_curve(svc, X_test, y_test)

请注意，绘制是通过最后一行代码完成的。

2.堆叠概括

Scikit-learn已经集成了用于减少估计量偏差的整体学习技术。StackingClassifier和StackingRegressor是启用估算器堆叠的模块，并使用final_estimator这些堆叠的估算器预测作为其输入。请参阅用户指南中的示例，使用以下定义为的回归估计量estimators和梯度增强回归最终估计量：

from sklearn.linear_model import RidgeCV, LassoCV

from sklearn.svm import SVR

from sklearn.ensemble import GradientBoostingRegressor

from sklearn.ensemble import StackingRegressor

from sklearn.datasets import load_boston

from sklearn.model_selection import train_test_split

estimators = [('ridge', RidgeCV()),

('lasso', LassoCV(random_state=42)),

('svr', SVR(C=1, gamma=1e-6))]

reg = StackingRegressor(

estimators=estimators,

final_estimator=GradientBoostingRegressor(random_state=42))

X, y = load_boston(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

reg.fit(X_train, y_train)

StackingRegressor(...)

3.任何估计器特征的重要性

现在，任何适合的Scikit-learn估计器都可以使用基于置换的重要性特征。从用户指南中描述如何计算功能的排列重要性：

特征排列重要性计算方式如下：首先，在X定义的数据集上评估通过评分定义的基线度量。接着，对验证集中的要素列进行置换，并再次评估度量。排列重要性定义为基线度量和来自特征列度量之间的差异。

发行说明中的完整示例：

from sklearn.ensemble import RandomForestClassifier

from sklearn.inspection import permutation_importance

X, y = make_classification(random_state=0, n_features=5, n_informative=3)

rf = RandomForestClassifier(random_state=0).fit(X, y)

result = permutation_importance(rf, X, y, n_repeats=10, random_state=0, n_jobs=-1)

fig, ax = plt.subplots()

sorted_idx = result.importances_mean.argsort()

ax.boxplot(result.importances[sorted_idx].T, vert=False, labels=range(X.shape[1]))

ax.set_title("Permutation Importance of each feature")

ax.set_ylabel("Features")

fig.tight_layout()

plt.show()

4.梯度提升缺失价值支持

梯度提升分类器和回归器现在都已经具备了处理缺失值的能力，从而消除了手动插补的需要。以下是遗漏的方式：

在训练过程中，树木种植者会根据潜在的收益，在每个分割点上了解缺失值的样本应归子级左还是右子级。进行预测时，因此将具有缺失值的样本分配给左或右的子级。如果在训练过程中没有遇到给定特征的缺失值，则将具有缺失值的样本映射到样本最多的那一方。

以下示例演示：

from sklearn.experimental import enable_hist_gradient_boosting

# noqa

from sklearn.ensemble import HistGradientBoostingClassifier

import numpy as np

X = np.array([0, 1, 2, np.nan]).reshape(-1, 1)

y = [0, 0, 1, 1]

gbdt = HistGradientBoostingClassifier(min_samples_leaf=1).fit(X, y)

print(gbdt.predict(X))

[0 0 1 1]

5.基于KNN的缺失值估算

现在，梯度增强本身就支持缺失值插补，但可以使用K近邻插值器在任何数据集上执行显式插补。只要在训练集中，n个最近邻居的平均值就推算出每个缺失值，只要两个样本都不缺失的特征就近了。欧式距离是使用的默认距离度量。

一个例子：

import numpy as np

from sklearn.impute import KNNImputer

X = [[1, 2, np.nan], [3, 4, 3], [np.nan, 6, 5], [8, 8, 7]]

imputer = KNNImputer(n_neighbors=2)

print(imputer.fit_transform(X))

[[1,2,4]

[3,4,3]

[5.5 ,6，5]

[8,8,7]]

最新版本的Scikit-learn中有更多功能，这里就不做过多介绍了。你可以去官网获取更多的信息！

weixin_29179583

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_29179583 CSDN认证博客专家 CSDN认证企业博客

码龄8年

74: 原创

-: 周排名

166万+: 总排名

11万+: 访问

: 等级

194: 积分

28: 粉丝

13: 获赞

0: 评论

78: 收藏

私信

关注

热门文章

最新评论

Python爬虫爬取知乎
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。