python语言是开源的现拥有十几万个第三方函数库_用于数据科学的三大顶级Python库...

来源:雪球App,作者: 清风鹤舞,(https://xueqiu.com/8307311476/115103340)

开源最前线(ID:OpenSourceTop) 编译

Python在许多方面有着强大的吸引力 - 例如效率、代码可读性和速度方面,也正因为如此,对于希望提升应用程序功能的数据科学家和机器学习专家来说,Python通常是首选编程语言。(例如,Andrey Bulezyuk使用Python编程语言创建了一个很牛逼的机器学习应用程序。)

由于其广泛的用途,Python拥有大量的库,使数据科学家可以更轻松地完成复杂的任务,而无需面对很多编程麻烦。以下是最受数据科学青睐的3个顶级的Python库,如果你正需要,那就试试吧

1. NumPy

NumPy(Numerical Python的缩写)是顶级的库之一,它配备了大量有用的资源来帮助数据科学家将Python变成强大的科学分析和建模工具。这个流行的开源库可以在BSD许可下使用。它是在科学计算中执行任务的基础Python库。NumPy是一个更大的基于python的开源工具生态系统SciPy的一部分。

这个库为Python提供了大量的数据结构,可以轻松地执行多维数组和矩阵计算。除了用于求解线性代数方程和其他数学计算之外,NumPy还被用作不同类型通用数据的通用多维容器。

此外,它能够完美集成其他编程语言,如C/ c++和Fortran。NumPy库的多功能性使它能够轻松快速地与各种数据库和工具相结合。例如,让我们看看如何使用NumPy(缩写为np)来相乘两个矩阵。

从导入库开始(对于这些示例,我们将使用Jupyter笔记本)。

import numpy as np

接下来,让我们使用eye()函数生成具有规定维数的单位矩阵:

matrix_one = np.eye(3)

matrix_one

输出结果如下:

array([[1., 0., 0.],

[0., 1., 0.],

[0., 0., 1.]])

让我们生成另一个3x3矩阵。

我们将使用arange([起始号码]、[停止号码])函数来排列数字。注意,函数中的第一个参数是要列出的初始数字,最后一个数字不包含在生成的结果中

此外,reshape()函数用于将原始生成的矩阵的维数修改为所需的维数。为了使矩阵“可乘”,它们应该具有相同的维度。

matrix_two = np.arange(1,10).reshape(3,3)

matrix_two

输出如下:

array([[1, 2, 3],

[4, 5, 6],

[7, 8, 9]])

让我们使用dot()函数乘以两个矩阵:

matrix_multiply = np.dot(matrix_one, matrix_two)

matrix_multiply

输出如下:

array([[1., 2., 3.],

[4., 5., 6.],

[7., 8., 9.]])

接着,我们设法在不使用vanilla Python的情况下将两个矩阵相乘。以下是此示例的完整代码:

import numpy as np

#generating a 3 by 3 identity matrix

matrix_one = np.eye(3)

matrix_one

#generating another 3 by 3 matrix for multiplication

matrix_two = np.arange(1,10).reshape(3,3)

matrix_two

#multiplying the two arrays

matrix_multiply = np.dot(matrix_one, matrix_two)

matrix_multiply

2. Pandas

panda是另一个可以提高您的Python数据科学技能的大型库。就像NumPy一样,它属于SciPy开源软件家族,并且可以在BSD自由软件许可下使用。

Pandas提供多功能和强大的工具,用于整理数据结构和执行大量数据分析。该库适用于不完整,非结构化和无序的实际数据,并提供了用于整形,聚合,分析和可视化数据集的工具。

此库中有三种类型的数据结构:

● Series:单维阵列

● DataFrame:具有异构类型列的二维

● Panel:三维,大小可变数组

例如,让我们看看Panda Python库(缩写为pd)如何用于执行一些描述性统计计算。从导入库开始:

import pandas as pd

先创建一个系列字典:

d = {'Name':pd.Series(['Alfrick','Michael','Wendy','Paul','Dusan','George','Andreas',

'Irene','Sagar','Simon','James','Rose']),

'Years of Experience':pd.Series([5,9,1,4,3,4,7,9,6,8,3,1]),

'Programming Language':pd.Series(['Python','JavaScript','PHP','C++','Java','Scala','React','Ruby','Angular','PHP','Python','JavaScript'])

}

再创建一个DataFrame。

df = pd.DataFrame(d)

输出表如下:

Name Programming Language Years of Experience

0 Alfrick Python 5

1 Michael JavaScript 9

2 Wendy PHP 1

3 Paul C++ 4

4 Dusan Java 3

5 George Scala 4

6 Andreas React 7

7 Irene Ruby 9

8 Sagar Angular 6

9 Simon PHP 8

10 James Python 3

11 Rose JavaScript 1

下面是这个示例的全部代码:

import pandas as pd

#creating a dictionary of series

d = {'Name':pd.Series(['Alfrick','Michael','Wendy','Paul','Dusan','George','Andreas',

'Irene','Sagar','Simon','James','Rose']),

'Years of Experience':pd.Series([5,9,1,4,3,4,7,9,6,8,3,1]),

'Programming Language':pd.Series(['Python','JavaScript','PHP','C++','Java','Scala','React','Ruby','Angular','PHP','Python','JavaScript'])

}

#Create a DataFrame

df = pd.DataFrame(d)

print(df)

3. Matplotlib

Matplotlib也是SciPy核心软件包的一部分,遵循BSD许可协议。它是一个流行的Python科学库,用于生成简单而强大的可视化。风格类似 Matlab 的基于Python的图表绘图系统,它提供了一整套和 matlab 相似的命令 API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入 GUI 应用程序中。

下面,让我们体会一下Matplotlib库是如何创建简单的条形图,从导入库开始:

from matplotlib import pyplot as plt

接着,生成x轴和y轴的值:

x = [2, 4, 6, 8, 10]

y = [10, 11, 6, 7, 4]

接着调用绘制条形图的功能

plt.bar(x,y)

plt.show()

生成的条形图如下:

以下是此示例的完整代码:

#importing Matplotlib Python library

from matplotlib import pyplot as plt

#same as import matplotlib.pyplot as plt

#generating values for x-axis

x = [2, 4, 6, 8, 10]

#generating vaues for y-axis

y = [10, 11, 6, 7, 4]

#calling function for plotting the bar chart

plt.bar(x,y)

#showing the plot

plt.show()

Python编程语言在数据处理和准备方面一直做得很好,但在复杂的科学数据分析和建模方面做得就不那么好了。用于数据科学的顶级Python框架有助于填补这一空白,它允许用户执行复杂的数学计算并创建对数据有意义的复杂模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 常用的Python数据分析方向的第三方库有很多,其中比较常见和流行的包括: 1. NumPy:用于科学计算和数据处理的基础包,支持高效的数组操作和运算。 2. Pandas:用于数据分析和处理的库,提供了类似于SQL的数据操作和数据处理功能。 3. Matplotlib:用于数据可视化的库,支持各种类型的图表和可视化效果。 4. Scikit-learn:用于机器学习和数据挖掘的库,提供了许多常见的分类、回归和聚类算法。 5. TensorFlow和PyTorch:用于深度学习和神经网络的库,支持各种类型的神经网络和深度学习模型的搭建和训练。 6. Seaborn:基于Matplotlib的数据可视化库,提供了更加丰富和美观的图表和可视化效果。 7. Statsmodels:用于统计分析和模型建立的库,支持各种类型的统计分析和建模方法。 ### 回答2: Python数据分析方向的第三方库有很多,这里简要介绍几个常用的: 1. NumPy(Numerical Python):NumPy是Python进行科学计算的基础库,提供了高性能的多维数组对象和一系列的数学函数,是Python数据分析的核心库。 2. Pandas:Pandas是基于NumPy构建的数据分析库,提供了高效、灵活的数据结构和数据分析工具,使得数据处理更加简单和便捷。 3. Matplotlib:Matplotlib是一个用于绘制数据图表的库,可以生成各种类型的图形,如折线图、散点图、柱状图等,可视化数据分析结果。 4. Seaborn:Seaborn是基于Matplotlib的统计数据可视化库,提供了更高层次的统计图形功能,使得绘制各种复杂、美观的统计图形变得更加简单。 5. SciPy:SciPy是Python中的科学计算库,包括各种模块用于执行数值计算、优化、线性代数、傅里叶变换、信号处理等。 6. Scikit-learn:Scikit-learn是Python中的机器学习库,提供了丰富的机器学习算法和工具,包括分类、回归、聚类、降维等,是进行机器学习和数据挖掘的重要工具。 这些都是Python数据分析领域的重要第三方库,通过它们能够轻松地进行数据分析、数据可视化、机器学习等任务。同时,由于Python社区的活跃和开源特性,还有很多其他的第三方库可供选择,可以根据具体需求选择合适的库来进行数据分析工作。 ### 回答3: 在Python数据分析方向,有许多第三方库可供使用。以下是其中一些常用的库: 1. NumPy:NumPy是Python用于科学计算的基础库。它提供了高性能的多维数组对象以及处理这些数组的工具。NumPy的核心功能是快速的数值计算,对于大型数据集的处理非常高效,常被用于数学、科学和工程领域的数据分析。 2. pandas:pandas是一个高效的数据分析和数据处理库。它提供了类似于Excel的数据结构和操作方法,可以轻松处理和分析具有标签的数据,如表格数据。pandas具有强大的数据清理、数据变换和数据聚合等功能,是数据分析和数据预处理的必备库。 3. Matplotlib:Matplotlib是Python中最著名的数据可视化库之一。它支持生成各种类型的静态、动态和交互式图表,包括线图、散点图、柱状图、饼图等。Matplotlib可以帮助数据分析师更好地理解和传达数据,是可视化数据分析的重要工具。 4. Seaborn:Seaborn是建立在Matplotlib之上的另一个数据可视化库。它提供了更高级别的图表和统计可视化功能,使得生成美观和有用的图表变得更加简单。Seaborn可以帮助数据分析师快速生成各种复杂的统计图表,例如核密度图、热力图和分类图等。 5. SciPy:SciPy是一个开源的科学计算库,提供了许多数值计算和优化算法的实。它建立在NumPy之上,并与NumPy紧密集成。SciPy包含了众多的子模块,用于处理数学、统计学和科学领域中的各种问题,例如插值、优化、信号处理和图像处理等。 这些第三方库在Python数据分析方向都扮演着重要的角色,它们提供了丰富的功能和工具,可以帮助数据分析师更轻松地处理、分析和可视化数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值