数据科学速查表【Numpy,Pandas,Sklearn,Keras,Pyspark等】

最新推荐文章于 2023-03-30 21:29:55 发布

Cookly 洪鹏飞

最新推荐文章于 2023-03-30 21:29:55 发布

阅读量580

点赞数 1

分类专栏：大数据文章标签：数据挖掘大数据 python 人工智能数据分析

本文链接：https://blog.csdn.net/qq_30784919/article/details/90111658

版权

大数据专栏收录该内容

0 篇文章 0 订阅

订阅专栏

NumPy

NumPy 是 Python 的一个扩充程序库，支持高级大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。内部解除了 Python 的 PIL (全局解释器锁)，同时使用 C/C++ 做扩展，运算效率极好，是大量机器学习框架的基础库。

速查表：

Pandas

Pandas 是一个基于 NumPy 的工具，主要是为了解决数据分析任务，包括了一些标准的数据模型，提供了高效地操作大型数据集所需的工具。

速查表1：

速查表2：

SciPy

SciPy是基于NumPy开发的高级模块，它提供了许多数学算法和函数的实现，用于解决科学计算中的一些标准问题。例如数值积分和微分方程求解，扩展的矩阵计算，最优化，概率分布和统计函数，甚至包括信号处理等。

速查表：

Matplotlib

Matplotlib 是 Python 的一个绘图库。它包含了大量的工具，你可以使用这些工具创建各种图形，包括简单的散点图，正弦曲线，甚至是三维图形。Python 科学计算社区经常使用它完成数据可视化的工作。

速查表：

sklearn

sklearn是一个Python第三方提供的非常强力的机器学习库，它包含了从数据预处理到训练模型的各个方面。在实战使用scikit-learn中可以极大的节省我们编写代码的时间以及减少我们的代码量，使我们有更多的精力去分析数据分布，调整模型和修改超参。

速查表：

PySpark

Spark是基于内存计算的大数据并行计算框架.Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量的廉价硬件之上，形成集群。PySpark是针对Spark的Python API。

速查表：

Keras

Keras 是一个用 Python 编写的高级神经网络 API，它能够以 TensorFlow, CNTK, 或者 Theano 作为后端运行。Keras 的开发重点是支持快速的实验。能够以最小的时延把你的想法转换为实验结果，是做好研究的关键。

速查表：

dplyr

dplyr包是 Hadley Wickham （ggplot2包的作者，被称作“一个改变R的人”）的杰作, 并自称 a grammar of data manipulation, 他将原本plyr 包中的ddply()等函数进一步分离强化,专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口。