2024年Python最全8个可以提高数据科学工作效率并节省宝贵时间的Python库(1)，2024年最新互联网公司面试有什么要问的

最新推荐文章于 2024-10-16 01:13:02 发布

2401_84139924

最新推荐文章于 2024-10-16 01:13:02 发布

阅读量632

点赞数 7

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/2401_84139924/article/details/138595736

版权

程序员专栏收录该内容

144 篇文章

订阅专栏

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

cl1.fit(X, y)

cl1.score(X, y)

0.9033333333333333

cl2 = SGDClassifier()

cl2.fit(trX, y)

cl2.score(trX, y)

0.9433333333333334

ITMO_FS是一个相对较新的库，因此它仍然有点不稳定，但我仍然建议尝试一下。

3、shap-hypetune

到目前为止，我们已经看到了用于特征选择和超参数调整的库，但为什么不能同时使用两者呢？这就是 shap-hypetune 的作用。

让我们从了解什么是“SHAP”开始：

“SHAP（SHapley Additive exPlanations）是一种博弈论方法，用于解释任何机器学习模型的输出。”

SHAP 是用于解释模型的最广泛使用的库之一，它通过产生每个特征对模型最终预测的重要性来工作。

另一方面，shap-hypertune 受益于这种方法来选择最佳特征，同时也选择最佳超参数。你为什么要合并在一起？因为没有考虑它们之间的相互作用，独立地选择特征和调整超参数可能会导致次优选择。同时执行这两项不仅考虑到了这一点，而且还节省了一些编码时间（尽管由于搜索空间的增加可能会增加运行时间）。

搜索可以通过 3 种方式完成：网格搜索、随机搜索或贝叶斯搜索（另外，它可以并行化）。

但是，shap-hypertune 仅适用于梯度提升模型！

4、PyCaret

PyCaret 是一个开源、低代码的机器学习库，可自动执行机器学习工作流。它涵盖探索性数据分析、预处理、建模（包括可解释性）和 MLOps。

让我们看看他们网站上的一些实际示例，看看它是如何工作的：

load dataset

from pycaret.datasets import get_data

diabetes = get_data(‘diabetes’)

init setup

from pycaret.classification import *

clf1 = setup(data = diabetes, target = ‘Class variable’)

compare models

best = compare_models()

只需几行代码，就可以尝试多个模型，并在整个主要分类指标中对它们进行了比较。

它还允许创建一个基本的应用程序来与模型进行交互：

from pycaret.datasets import get_data

juice = get_data(‘juice’)

from pycaret.classification import *

exp_name = setup(data = juice, target = ‘Purchase’)

lr = create_model(‘lr’)

create_app(lr)

最后，可以轻松地为模型创建 API 和 Docker 文件：

from pycaret.datasets import get_data

juice = get_data(‘juice’)

from pycaret.classification import *

exp_name = setup(data = juice, target = ‘Purchase’)

lr = create_model(‘lr’)

create_api(lr, ‘lr_api’)

create_docker(‘lr_api’)

没有比这更容易的了，对吧？

PyCaret是一个非常完整的库，在这里很难涵盖所有内容，建议你现在下载并开始使用它来了解一些其在实践中的能力。

5、floWeaver

FloWeaver 可以从流数据集中生成桑基图。如果你不知道什么是桑基图，这里有一个例子：

在显示转化漏斗、营销旅程或预算分配的数据时，它们非常有用（上例）。入口数据应采用以下格式：“源 x 目标 x 值”，只需一行代码即可创建此类图（非常具体，但也非常直观）。

6、Gradio

如果你阅读过敏捷数据科学，就会知道拥有一个让最终用户从项目开始就与数据进行交互的前端界面是多么有帮助。一般情况下在Python中最常用是 Flask，但它对初学者不太友好，它需要多个文件和一些 html、css 等知识。

Gradio 允许您通过设置输入类型（文本、复选框等）、功能和输出来创建简单的界面。尽管它似乎不如 Flask 可定制，但它更直观。

由于 Gradio 现在已经加入 Huggingface，可以在互联网上永久托管 Gradio 模型，而且是免费的！

7、Terality

理解 Terality 的最佳方式是将其视为“Pandas ，但速度更快”。这并不意味着完全替换 pandas 并且必须重新学习如何使用df：Terality 与 Pandas 具有完全相同的语法。实际上，他们甚至建议“import Terality as pd”，并继续按照以前的习惯的方式进行编码。

它快多少？他们的网站有时会说它快 30 倍，有时快 10 到 100 倍。

另一个重要是 Terality 允许并行化并且它不在本地运行，这意味着您的 8GB RAM 笔记本电脑将不会再出现 MemoryErrors！

但它在背后是如何运作的呢？理解 Terality 的一个很好的比喻是可以认为他们在本地使用的 Pandas 兼容的语法并编译成 Spark 的计算操作，使用Spark进行后端的计算。所以计算不是在本地运行，而是将计算任务提交到了他们的平台上。

那有什么问题呢？每月最多只能免费处理 1TB 的数据。如果需要更多则必须每月至少支付 49 美元。 1TB/月对于测试工具和个人项目可能绰绰有余，但如果你需要它来实际公司使用，肯定是要付费的。

8、torch-handle

如果你是Pytorch的使用者，可以试试这个库。

torchhandle是一个PyTorch的辅助框架。它将PyTorch繁琐和重复的训练代码抽象出来，使得数据科学家们能够将精力放在数据处理、创建模型和参数优化，而不是编写重复的训练循环代码。使用torchhandle，可以让你的代码更加简洁易读，让你的开发任务更加高效。

torchhandle将Pytorch的训练和推理过程进行了抽象整理和提取，只要使用几行代码就可以实现PyTorch的深度学习管道。并可以生成完整训练报告，还可以集成tensorboard进行可视化。

from collections import OrderedDict

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取