python数值比较器_3个独一无二的机器学习Python库

Python有大量广泛应用于数据科学的软件包,其中部分工具旨在实现机器学习算法。我将介绍一些新的软件包,您以前可能从未听说过这些工具,或者用得很少。这些库使机器学习算法的选择变得更快和更容易。如果您想了解更多重要的机器学习Python库,请继续阅读,它们并不是scikit-learn,TensorFlow。我们将讨论PyCaret,pickle和Imbalanced-learn。

本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。数据黑客 - 专注金融大数据的内容聚合和数据聚合平台​finquanthub.com

PyCaret

PyCaret能够用更少的代码来实现机器学习算法,选择不同的算法也非常简单。尽管有很多公司致力于自动化机器学习模型,但我认为PyCaret是最好的开源工具。

PyCaret入门教程

以下是在Jupyter Notebook中实现PyCaret建模的简单教程。您也可以实现其他功能,例如设置不同的参数,Feature Selection ,PCA Method等等。您还可以轻松的创建图表以对比特征重要性。

# install

!pip install pycaret

#read in data

df = data.sample(frac=0.8, random_state=42)

data_unseen = data.drop(data.index)

df.reset_index(drop=True, inplace=True)

data_unseen.reset_index(drop=True, inplace=True)

#import

from pycaret.regression import *

#setup

reg_example = setup(data = df, target = 'what_you_are_trying_to_predict', session_id=1)

#compare your models

models_comparison = compare_models()

#create your model

model = create_model('xgboost')

#tune your model

tuned_model = tune_model(model)

优势容易上手,使用简单

提供了很棒的数据可视化

帮助你向项目方解释复杂的机器学习模型

并行比较几乎所有机器学习算法

PyCaret充当了所有机器学习算法的比较器,选择器和创建器。

Pickle

接下来介绍pickle,它可以序列化机器学习模型,便于共享,在需要模型时直接加载便可使用模型预测新数据。

Pickle入门教程

#import

import pickle

#model name

filename = ‘model.pkl’

#save model

with open(filename, 'wb') as file:

pickle.dump(model, file)

#load model

with open(filename, 'rb') as file:

pkl_model = pickle.load(file)

#score model

score = pkl_model.score(X_test, y_test)

#predict with pkl'd model

predictions = pkl_model.predict(X_test)

优势容易上手,使用简单

模型重用,需要时直接加载pickle模型即可使用

在团队成员间共享模型

pickle是在小数据集上练习部署和重用机器学习模型的最佳方法。

Imbalanced-learn

imbalanced-learn能够在数据不平衡或小样本的情况下提高模型准确性。其中一个主要用途是通过SMOTE / KMeansSMOTE和RandomOverSampler等算法实现重采样。

SMOTE代表合成少数族裔重采样技术。在此示例中,您将生成类似于少数数据的新数据。您还可以指定大多数或特定样本的欠采样,以使将被摄入机器学习算法的数据集更加平衡。创建新的合成样本的方法是查看附近的类并在它们之间画一条线,并在该线上随机创建一个新点。这意味着数据是新的,但是落在当前点和附近的点之间。

Imbalanced-learn入门教程

#import

from imblearn.over_sampling import SMOTE

#set the sampler

sm = SMOTE(random_state=42)

#apply sampler to current dataset and save the new, appended data to original data

X_oversampled, y_oversampled = sm.fit_resample(X, y)

优势使用方便

处理不平衡数据集

多种不同用途的采样方法

欠采样(under-sampling)和过采样(over-sampling)

集成方法

Keras批处理生成器

TensorFlow批处理生成器

管道和指标

结论

目前有很多机器学习库,程序包,模块,平台和框架可供选择,很多文章都做过详尽的论述。我想介绍我个人认为最好且独一无二的工具,希望对刚接触机器学习的新手有所帮助。来源:Medium

作者:Matt Przybyla

翻译校对:数据黑客

原文标题:The Top 3 Machine Learning Libraries数据黑客 - 专注金融大数据的内容聚合和数据聚合平台​finquanthub.com

我们聚合全网最优秀的资讯和教程:金融大数据

机器学习/深度学习

量化交易

数据工程

编程语言,Python,R,Julia,Scala,SQL

我们提供开源数据接口:下载国内和国外海量金融数据

API接口,将数据整合到您的平台

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值