8个明显可以提升数据处理效率的 Python 神库

在进行数据科学时,可能会浪费大量时间编码并等待计算机运行某些东西。所以我选择了一些 Python 库,可以帮助你节省宝贵的时间

1、Optuna

Optuna 是一个开源的超参数优化框架,它可以自动为机器学习模型找到最佳超参数。

最基本的(也可能是众所周知的)替代方案是 sklearn 的 GridSearchCV,它将尝试多种超参数组合并根据交叉验证选择最佳组合。

GridSearchCV 将在先前定义的空间内尝试组合。例如,对于随机森林分类器,可能想要测试几个不同的树的最大深度。GridSearchCV 会提供每个超参数的所有可能值,并查看所有组合。

Optuna会在定义的搜索空间中使用自己尝试的历史来确定接下来要尝试的值。它使用的方法是一种称为“Tree-structured Parzen Estimator”的贝叶斯优化算法。

这种不同的方法意味着它不是无意义的地尝试每一个值,而是在尝试之前寻找最佳候选者,这样可以节省时间,否则这些时间会花在尝试没有希望的替代品上(并且可能也会产生更好的结果)。

最后,它与框架无关,这意味着您可以将它与 TensorFlow、Keras、PyTorch 或任何其他 ML 框架一起使用。

技术提升

技术要学会分享、交流,不建议闭门造车。一个人走的很快、一堆人可以走的更远。

完整代码、数据、技术交流提升, 均可加知识星球交流群获取,群友已超过2000人,添加时切记的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、添加微信号:pythoner666,备注:来自 CSDN + python
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

2、ITMO_FS

ITMO_FS 是一个特征选择库,它可以为 ML 模型进行特征选择。拥有的观察值越少,就越需要谨慎处理过多的特征,以避免过度拟合。所谓“谨慎”意思是应该规范你的模型。通常一个更简单的模型(更少的特征),更容易理解和解释。

ITMO_FS 算法分为 6 个不同的类别:监督过滤器、无监督过滤器、包装器、混合、嵌入式、集成(尽管它主要关注监督过滤器)。

“监督过滤器”算法的一个简单示例是根据特征与目标变量的相关性来选择特征。“backward selection”,可以尝试逐个删除特征,并确认这些特征如何影响模型预测能力。

这是一个关于如何使用 ITMO_FS 及其对模型分数的影响的普通示例:

>>> from sklearn.linear_model import SGDClassifier 
>>> from ITMO_FS.embedded import MOS 
 
>>> X, y = make_classification(n_samples=300, n_features=10, random_state=0, n_informative=2) 
>>> sel = MOS() 
>>> trX = sel.fit_transform(X, y, smote=False) 
 
>>> cl1 = SGDClassifier() 
>>> cl1.fit(X, y) 
>>> cl1.score(X, y) 
0.9033333333333333 
 
>>> cl2 = SGDClassifier() 
>>> cl2.fit(trX, y) 
>>> cl2.score(trX, y) 
0.9433333333333334

ITMO_FS是一个相对较新的库,因此它仍然有点不稳定,但我仍然建议尝试一下。

3、Shap-hypetune

到目前为止,我们已经看到了用于特征选择和超参数调整的库,但为什么不能同时使用两者呢?这就是 shap-hypetune 的作用。

让我们从了解什么是“SHAP”开始:

“SHAP(SHapley Additive exPlanations)是一种博弈论方法,用于解释任何机器学习模型的输出。”

SHAP 是用于解释模型的最广泛使用的库之一,它通过产生每个特征对模型最终预测的重要性来工作。

另一方面,shap-hypertune 受益于这种方法来选择最佳特征,同时也选择最佳超参数。你为什么要合并在一起?因为没有考虑它们之间的相互作用,独立地选择特征和调整超参数可能会导致次优选择。同时执行这两项不仅考虑到了这一点,而且还节省了一些编码时间(尽管由于搜索空间的增加可能会增加运行时间)。

搜索可以通过 3 种方式完成:网格搜索、随机搜索或贝叶斯搜索(另外,它可以并行化)。但是,shap-hypertune 仅适用于梯度提升模型!

4、PyCaret

PyCaret 是一个开源、低代码的机器学习库,可自动执行机器学习工作流。它涵盖探索性数据分析、预处理、建模(包括可解释性)和 MLOps。

让我们看看他们网站上的一些实际示例,看看它是如何工作的:

# load dataset 
from pycaret.datasets import get_data 
diabetes = get_data('diabetes') 
 
# init setup 
from pycaret.classification import * 
clf1 = setup(data = diabetes, target = 'Class variable') 
 
# compare models 
best = compare_models()

图片

只需几行代码,就可以尝试多个模型,并在整个主要分类指标中对它们进行了比较。

它还允许创建一个基本的应用程序来与模型进行交互:

from pycaret.datasets import get_data 
juice = get_data('juice') 
from pycaret.classification import * 
exp_name = setup(data = juice,  target = 'Purchase') 
lr = create_model('lr') 
create_app(lr)

最后,可以轻松地为模型创建 API 和 Docker 文件:

from pycaret.datasets import get_data 
juice = get_data('juice') 
from pycaret.classification import * 
exp_name = setup(data = juice,  target = 'Purchase') 
lr = create_model('lr') 
create_api(lr, 'lr_api') 
create_docker('lr_api')

没有比这更容易的了,对吧?

PyCaret是一个非常完整的库,在这里很难涵盖所有内容,建议你现在下载并开始使用它来了解一些 其在实践中的能力。

5、floWeaver

FloWeaver 可以从流数据集中生成桑基图。如果你不知道什么是桑基图,这里有一个例子:图片

在显示转化漏斗、营销旅程或预算分配的数据时,它们非常有用(上例)。入口数据应采用以下格式:“源 x 目标 x 值”,只需一行代码即可创建此类图(非常具体,但也非常直观)。

6、Gradio

如果你阅读过敏捷数据科学,就会知道拥有一个让最终用户从项目开始就与数据进行交互的前端界面是多么有帮助。一般情况下在Python中最常用是 Flask,但它对初学者不太友好,它需要多个文件和一些 html、css 等知识。

Gradio 允许您通过设置输入类型(文本、复选框等)、功能和输出来创建简单的界面。尽管它似乎不如 Flask 可定制,但它更直观。

由于 Gradio 现在已经加入 Huggingface,可以在互联网上永久托管 Gradio 模型,而且是免费的!

7、Terality

理解 Terality 的最佳方式是将其视为“Pandas ,但速度更快”。这并不意味着完全替换 pandas 并且必须重新学习如何使用df:Terality 与 Pandas 具有完全相同的语法。实际上,他们甚至建议“import Terality as pd”,并继续按照以前的习惯的方式进行编码。它快多少?他们的网站有时会说它快 30 倍,有时快 10 到 100 倍。

另一个重要是 Terality 允许并行化并且它不在本地运行,这意味着您的 8GB RAM 笔记本电脑将不会再出现 MemoryErrors!

但它在背后是如何运作的呢?理解 Terality 的一个很好的比喻是可以认为他们在本地使用的 Pandas 兼容的语法并编译成 Spark 的计算操作,使用Spark进行后端的计算。所以计算不是在本地运行,而是将计算任务提交到了他们的平台上。

那有什么问题呢?每月最多只能免费处理 1TB 的数据。如果需要更多则必须每月至少支付 49 美元。1TB/月对于测试工具和个人项目可能绰绰有余,但如果你需要它来实际公司使用,肯定是要付费的。

8、Torch-Handle

如果你是Pytorch的使用者,可以试试这个库。

torchhandle是一个PyTorch的辅助框架。它将PyTorch繁琐和重复的训练代码抽象出来,使得数据科学家们能够将精力放在数据处理、创建模型和参数优化,而不是编写重复的训练循环代码。使用torchhandle,可以让你的代码更加简洁易读,让你的开发任务更加高效。

torchhandle将Pytorch的训练和推理过程进行了抽象整理和提取,只要使用几行代码就可以实现PyTorch的深度学习管道。并可以生成完整训练报告,还可以集成tensorboard进行可视化。

from collections import OrderedDict 
import torch 
from torchhandle.workflow import BaseConpython 
 
 
class Net(torch.nn.Module): 
    def __init__(self, ): 
        super().__init__() 
        self.layer = torch.nn.Sequential(OrderedDict([ 
            ('l1', torch.nn.Linear(10, 20)), 
            ('a1', torch.nn.ReLU()), 
            ('l2', torch.nn.Linear(20, 10)), 
            ('a2', torch.nn.ReLU()), 
            ('l3', torch.nn.Linear(10, 1)) 
        ])) 
 
    def forward(self, x): 
        x = self.layer(x) 
        return x 
 
num_samples, num_features = int(1e4), int(1e1) 
X, Y = torch.rand(num_samples, num_features), torch.rand(num_samples) 
dataset = torch.utils.data.TensorDataset(X, Y) 
trn_loader = torch.utils.data.DataLoader(dataset, batch_size=64, num_workers=0, shuffle=True) 
loaders = {"train": trn_loader, "valid": trn_loader} 
device = 'cuda' if torch.cuda.is_available() else 'cpu' 
 
model = {"fn": Net} 
criterion = {"fn": torch.nn.MSELoss} 
optimizer = {"fn": torch.optim.Adam, 
             "args": {"lr": 0.1}, 
             "params": {"layer.l1.weight": {"lr": 0.01}, 
                        "layer.l1.bias": {"lr": 0.02}} 
             } 
scheduler = {"fn": torch.optim.lr_scheduler.StepLR, 
             "args": {"step_size": 2, "gamma": 0.9} 
             } 
 
c = BaseConpython(model=model, 
                criterion=criterion, 
                optimizer=optimizer, 
                scheduler=scheduler, 
                conpython_tag="ex01") 
train = c.make_train_session(device, dataloader=loaders) 
train.train(epochs=10)

定义一个模型,设置数据集,配置优化器、损失函数就可以自动训练了,是不是和TF差不多了。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Python数据处理Pyspark是一个基于Apache Spark的Python API,它提供了一种高效的方式来处理大规模数据集。Pyspark可以在分布式环境下运行,可以处理大量的数据,并且可以在多个节点上并行处理数据。Pyspark提供了许多功能,包括数据处理机器学习、图形处理等。在实际应用中,Pyspark可以用于数据清洗、数据分析、数据挖掘、数据可视化等方面。通过使用Pyspark,可以更加高效地处理大规模数据集,提高数据处理效率和准确性。 ### 回答2: 随着数据量不断增大,大数据处理已经成为了现代企业的关键业务之一。而在众多大数据处理系统中,由Apache开发的Spark一直领先于其他系统,具有高效、可扩展、易于使用等特点。针对Python开发者而言,使用pyspark可以方便地利用Python语言来处理大规模数据分析和处理任务。 pyspark是Apache Spark的Python API,它提供了与Spark核心API对接的Python包。pyspark完全是用Python编写的,它可以方便地在Python环境中使用,并提供了一组API来操作分布式数据集和执行分布式计算。因此pyspark可以方便地通过Python语言来访问Spark的强大功能。 对于Python数据处理任务,pyspark提供了以下优势: 1. 高效性 Spark是一种基于内存的分布式计算框架,它将数据存储在内存中以提高数据处理速度。与Hadoop相比,Spark可以提供更快的计算性能。因此,pyspark可以更快地处理大规模数据。 2. 处理能力 pyspark可以处理各种类型和格式的数据,如JSON、CSV、文本文档等。此外,pyspark可以在处理大规模数据集时自动进行分区并支持分布式数据处理。 3. 易于使用 由于pyspark是完全用Python编写的,所以它可以方便地在Python环境中使用。用户可以使用Python的所有功能来预处理、分析和可视化数据。在处理大规模数据时,pyspark可以使用Python语言的模块和标准来处理数据。 在实际应用中,pyspark广泛用于数据处理、数据分析、机器学习等领域。pyspark的高效和易于使用性,使它成为大数据处理的理想选择。借助pyspark,Python开发者不仅可以处理大规模数据,而且可以使用Python的更丰富的科学计算和数据可视化。 总之,pyspark是Python数据处理的重要工具之一,它为Python开发者提供了一种方便使用和快速处理大规模数据的途径。在实际应用中,pyspark可以帮助开发者处理各种类型和格式的数据,实现机器学习任务、数据分析和可视化等任务。 ### 回答3: Python数据处理Pyspark是Apache Spark生态系统中的一个组件,它能够提供比Hadoop MapReduce更快的大数据处理速度。Pyspark使用Python编写,允许Python程序员轻松地进行大数据处理。 Pyspark的使用方法非常简单,只需安装Spark并在Python代码中导入SparkContext和SQLContext即可。由于Pyspark本身的高效性能和灵活性,可以通过编写简单的代码轻松地实现大数据分析和处理。 Pyspark支持多种类型的数据源,比如JSON、Avro、Parquet等。此外,Pyspark还支持分布式机器学习和图形处理。这使得Pyspark能够让Python程序员在大规模数据上进行机器学习模型的拟合与评估、图形计算和深度学习,同时也可以进行大规模的数据处理,为数据挖掘和分析提供了很好的支持。 除此之外,Pyspark还支持Spark SQL,它可以将数据存储在关系型数据中,方便数据分析人员使用SQL式的查询语言进行数据分析和处理。 Pyspark的高并发和高可用性使其在大型数据集的处理过程中表现出色。与传统的MapReduce相比,Pyspark使用内存计算技术,能够轻松处理大型数据集的复杂计算。 总的来说,Pyspark是一个强大的大数据处理工具,可以让Python程序员轻松地进行大规模的数据处理机器学习和深度学习。同时结合Python的灵活性,使数据分析和处理更加便捷,因此在实际应用中得到越来越广泛的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值