8个可以提高数据科学工作效率并节省宝贵时间的Python库(1)

最新推荐文章于 2024-07-27 12:20:46 发布

2301_76278775

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量544

点赞数 13

分类专栏：程序员文章标签： python 开发语言

本文链接：https://blog.csdn.net/2301_76278775/article/details/137983114

版权

程序员专栏收录该内容

402 篇文章 0 订阅

订阅专栏

本文介绍了开源工具PyCaret，一个用于简化机器学习流程的库，包括模型比较、应用程序创建和API/Docker生成。同时提到了数据可视化库如FloWeaver的桑基图功能，以及用户友好的前端界面工具Gradio。Terality作为快速的Pandas替代品和torch-handle的PyTorch辅助框架也得到了提及。最后，还提到一份全面的Python学习资源，覆盖从入门到进阶的内容。

摘要由CSDN通过智能技术生成

4、PyCaret

PyCaret 是一个开源、低代码的机器学习库，可自动执行机器学习工作流。它涵盖探索性数据分析、预处理、建模（包括可解释性）和 MLOps。

让我们看看他们网站上的一些实际示例，看看它是如何工作的：

load dataset

from pycaret.datasets import get_data

diabetes = get_data(‘diabetes’)

init setup

from pycaret.classification import *

clf1 = setup(data = diabetes, target = ‘Class variable’)

compare models

best = compare_models()

只需几行代码，就可以尝试多个模型，并在整个主要分类指标中对它们进行了比较。

它还允许创建一个基本的应用程序来与模型进行交互：

from pycaret.datasets import get_data

juice = get_data(‘juice’)

from pycaret.classification import *

exp_name = setup(data = juice, target = ‘Purchase’)

lr = create_model(‘lr’)

create_app(lr)

最后，可以轻松地为模型创建 API 和 Docker 文件：

from pycaret.datasets import get_data

juice = get_data(‘juice’)

from pycaret.classification import *

exp_name = setup(data = juice, target = ‘Purchase’)

lr = create_model(‘lr’)

create_api(lr, ‘lr_api’)

create_docker(‘lr_api’)

没有比这更容易的了，对吧？

PyCaret是一个非常完整的库，在这里很难涵盖所有内容，建议你现在下载并开始使用它来了解一些其在实践中的能力。

5、floWeaver

FloWeaver 可以从流数据集中生成桑基图。如果你不知道什么是桑基图，这里有一个例子：

在显示转化漏斗、营销旅程或预算分配的数据时，它们非常有用（上例）。入口数据应采用以下格式：“源 x 目标 x 值”，只需一行代码即可创建此类图（非常具体，但也非常直观）。

6、Gradio

如果你阅读过敏捷数据科学，就会知道拥有一个让最终用户从项目开始就与数据进行交互的前端界面是多么有帮助。一般情况下在Python中最常用是 Flask，但它对初学者不太友好，它需要多个文件和一些 html、css 等知识。

Gradio 允许您通过设置输入类型（文本、复选框等）、功能和输出来创建简单的界面。尽管它似乎不如 Flask 可定制，但它更直观。

由于 Gradio 现在已经加入 Huggingface，可以在互联网上永久托管 Gradio 模型，而且是免费的！

7、Terality

理解 Terality 的最佳方式是将其视为“Pandas ，但速度更快”。这并不意味着完全替换 pandas 并且必须重新学习如何使用df：Terality 与 Pandas 具有完全相同的语法。实际上，他们甚至建议“import Terality as pd”，并继续按照以前的习惯的方式进行编码。

它快多少？他们的网站有时会说它快 30 倍，有时快 10 到 100 倍。

另一个重要是 Terality 允许并行化并且它不在本地运行，这意味着您的 8GB RAM 笔记本电脑将不会再出现 MemoryErrors！

但它在背后是如何运作的呢？理解 Terality 的一个很好的比喻是可以认为他们在本地使用的 Pandas 兼容的语法并编译成 Spark 的计算操作，使用Spark进行后端的计算。所以计算不是在本地运行，而是将计算任务提交到了他们的平台上。

那有什么问题呢？每月最多只能免费处理 1TB 的数据。如果需要更多则必须每月至少支付 49 美元。 1TB/月对于测试工具和个人项目可能绰绰有余，但如果你需要它来实际公司使用，肯定是要付费的。

8、torch-handle

如果你是Pytorch的使用者，可以试试这个库。

torchhandle是一个PyTorch的辅助框架。它将PyTorch繁琐和重复的训练代码抽象出来，使得数据科学家们能够将精力放在数据处理、创建模型和参数优化，而不是编写重复的训练循环代码。使用torchhandle，可以让你的代码更加简洁易读，让你的开发任务更加高效。

torchhandle将Pytorch的训练和推理过程进行了抽象整理和提取，只要使用几行代码就可以实现PyTorch的深度学习管道。并可以生成完整训练报告，还可以集成tensorboard进行可视化。

from collections import OrderedDict

import torch

from torchhandle.workflow import BaseContext

class Net(torch.nn.Module):

def init(self, ):

super().init()

self.layer = torch.nn.Sequential(OrderedDict([

(‘l1’, torch.nn.Linear(10, 20)),

(‘a1’, torch.nn.ReLU()),

(‘l2’, torch.nn.Linear(20, 10)),

(‘a2’, torch.nn.ReLU()),

(‘l3’, torch.nn.Linear(10, 1))

]))

def forward(self, x):

x = self.layer(x)

return x

num_samples, num_features = int(1e4), int(1e1)

X, Y = torch.rand(num_samples, num_features), torch.rand(num_samples)

dataset = torch.utils.data.TensorDataset(X, Y)

trn_loader = torch.utils.data.DataLoader(dataset, batch_size=64, num_workers=0, shuffle=True)

loaders = {“train”: trn_loader, “valid”: trn_loader}

device = ‘cuda’ if torch.cuda.is_available() else ‘cpu’

model = {“fn”: Net}

criterion = {“fn”: torch.nn.MSELoss}

optimizer = {“fn”: torch.optim.Adam,

“args”: {“lr”: 0.1},

“params”: {“layer.l1.weight”: {“lr”: 0.01},

“layer.l1.bias”: {“lr”: 0.02}}

}

scheduler = {“fn”: torch.optim.lr_scheduler.StepLR,

“args”: {“step_size”: 2, “gamma”: 0.9}

}

c = BaseContext(model=model,

criterion=criterion,

optimizer=optimizer,
自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

e9.png)

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

2301_76278775

关注

13
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
8个可以提高数据科学工作效率并节省宝贵时间的Python库(1)

e9.png)
复制链接

扫一扫

专栏目录