python数据科学库_3个用于数据科学的顶级Python库

python数据科学库

Python的许多吸引力(例如效率,代码可读性和速度)使它成为数据科学爱好者的首选编程语言。 对于想要升级其应用程序功能的数据科学家和机器学习专家而言,Python通常是首选。 (例如,Andrey Bulezyuk使用Python编程语言创建了一个了不起的机器学习应用程序 。)

由于Python的广泛使用,它拥有大量的库,这些库使数据科学家更容易完成复杂的任务,而没有很多编码麻烦。 这是用于数据科学的三大Python库。 如果您想在野外开始自己的职业,请查看他们。

1. NumPy

NumPy (“数值Python”的缩写)是顶级库之一,配备了有用的资源,可帮助数据科学家将Python转变为强大的科学分析和建模工具。 流行的开源库可在BSD许可下获得。 它是用于执行科学计算任务的基础Python库。 NumPy是一个更大的基于Python的开源工具生态系统(称为SciPy)的一部分。

此外,它与其他编程语言(如C / C ++和Fortran)完美集成。 NumPy库的多功能性使其可以轻松,Swift地与广泛的数据库和工具合并。 例如,让我们看看如何使用NumPy(缩写为np )将两个矩阵相乘。

让我们从导入库开始(对于这些示例,我们将使用Jupyter笔记本)。

 import numpy as np 

接下来,让我们使用eye()函数生成具有规定尺寸的单位矩阵。


   
   
matrix_one = np. eye ( 3 )
matrix_one

这是输出:


   
   
array ( [ [ 1 . , 0 . , 0 . ] ,
        [ 0 . , 1 . , 0 . ] ,
        [ 0 . , 0 . , 1 . ] ] )

让我们生成另一个3x3矩阵。

我们将使用arange([起始编号],[终止编号])函数来排列编号。 请注意,函数中的第一个参数是要列出的初始编号,而最后一个编号不包括在生成的结果中。

同样,应用reshape()函数将原始生成的矩阵的尺寸修改为所需的尺寸。 为了使矩阵“可乘”,它们应具有相同的维数。


   
   
matrix_two = np. arange ( 1 , 10 ) . reshape ( 3 , 3 )
matrix_two

这是输出:


   
   
array ( [ [ 1 , 2 , 3 ] ,
        [ 4 , 5 , 6 ] ,
        [ 7 , 8 , 9 ] ] )

让我们使用dot()函数将两个矩阵相乘。


   
   
matrix_multiply = np. dot ( matrix_one , matrix_two )
matrix_multiply

这是输出:


   
   
array ( [ [ 1 . , 2 . , 3 . ] ,
        [ 4 . , 5 . , 6 . ] ,
        [ 7 . , 8 . , 9 . ] ] )

大!

我们成功地将两个矩阵相乘而未使用香草Python。

这是此示例的完整代码:


   
   
import numpy as np
#generating a 3 by 3 identity matrix
matrix_one = np. eye ( 3 )
matrix_one
#generating another 3 by 3 matrix for multiplication
matrix_two = np. arange ( 1 , 10 ) . reshape ( 3 , 3 )
matrix_two
#multiplying the two arrays
matrix_multiply = np. dot ( matrix_one , matrix_two )
matrix_multiply

2.熊猫

Pandas是另一个很棒的库,可以增强您的Python数据科学技能。 就像NumPy一样,它属于SciPy开源软件家族,可根据BSD免费软件许可使用。

Pandas提供多种功能强大的工具来处理数据结构和执行广泛的数据分析。 该库可以很好地处理不完整,无结构和无序的现实世界数据,并带有用于整形,汇总,分析和可视化数据集的工具。

该库中有三种类型的数据结构:

  • 系列:一维均匀阵列
  • DataFrame:二维,具有异构类型的列
  • 面板:三维尺寸可变数组

例如,让我们看看如何将Panda Python库(缩写为pd )用于执行一些描述性统计计算。

让我们从导入库开始。

 import pandas as pd 

让我们创建一个系列字典。


   
   
d = { 'Name' :pd. Series ( [ 'Alfrick' , 'Michael' , 'Wendy' , 'Paul' , 'Dusan' , 'George' , 'Andreas' ,
    'Irene' , 'Sagar' , 'Simon' , 'James' , 'Rose' ] ) ,
    'Years of Experience' :pd. Series ( [ 5 , 9 , 1 , 4 , 3 , 4 , 7 , 9 , 6 , 8 , 3 , 1 ] ) ,
    'Programming Language' :pd. Series ( [ 'Python' , 'JavaScript' , 'PHP' , 'C++' , 'Java' , 'Scala' , 'React' , 'Ruby' , 'Angular' , 'PHP' , 'Python' , 'JavaScript' ] )
    }

让我们创建一个DataFrame。

 df = pd. DataFrame ( d ) 

这是一个漂亮的输出表:


   
   
      Name Programming Language  Years of Experience
0   Alfrick               Python                     5
1   Michael           JavaScript                     9
2     Wendy                  PHP                     1
3      Paul                  C++                     4
4     Dusan                 Java                     3
5    George                Scala                     4
6   Andreas                React                     7
7     Irene                 Ruby                     9
8     Sagar              Angular                     6
9     Simon                  PHP                     8
10    James               Python                     3
11     Rose           JavaScript                     1

这是此示例的完整代码:


   
   
import pandas as pd
#creating a dictionary of series
d = { 'Name' :pd. Series ( [ 'Alfrick' , 'Michael' , 'Wendy' , 'Paul' , 'Dusan' , 'George' , 'Andreas' ,
    'Irene' , 'Sagar' , 'Simon' , 'James' , 'Rose' ] ) ,
    'Years of Experience' :pd. Series ( [ 5 , 9 , 1 , 4 , 3 , 4 , 7 , 9 , 6 , 8 , 3 , 1 ] ) ,
    'Programming Language' :pd. Series ( [ 'Python' , 'JavaScript' , 'PHP' , 'C++' , 'Java' , 'Scala' , 'React' , 'Ruby' , 'Angular' , 'PHP' , 'Python' , 'JavaScript' ] )
    }

#Create a DataFrame
df = pd. DataFrame ( d )
print ( df )

3. Matplotlib

Matplotlib也是SciPy核心软件包的一部分,并根据BSD许可证提供。 它是一个流行的Python科学库,用于生成简单而强大的可视化文件。 您可以将Python框架用于数据科学,以生成创意图形,图表,直方图以及其他形状和图形,而不必担心编写许多代码行。 例如,让我们看看如何使用Matplotlib库创建简单的条形图。

让我们从导入库开始。

 from matplotlib import pyplot as plt 

让我们为x轴和y轴生成值。


   
   
x = [ 2 , 4 , 6 , 8 , 10 ]
y = [ 10 , 11 , 6 , 7 , 4 ]

我们将其称为绘制条形图的函数。

 plt. bar ( x , y ) 

让我们来展示情节。

 plt. show ( ) 

这是条形图:

Bar chart from Matplotlib

这是此示例的完整代码:


   
   
#importing Matplotlib Python library
from matplotlib import pyplot as plt
#same as import matplotlib.pyplot as plt
 
#generating values for x-axis
x = [ 2 , 4 , 6 , 8 , 10 ]
 
#generating vaues for y-axis
y = [ 10 , 11 , 6 , 7 , 4 ]
 
#calling function for plotting the bar chart
plt. bar ( x , y )
 
#showing the plot
plt. show ( )

结语

Python编程语言在数据处理和准备方面一直做得很好,但是在复杂的科学数据分析和建模方面却做得不好。 数据科学的顶级Python框架有助于填补这一空白,使您能够进行复杂的数学计算并创建能够理解数据的复杂模型。

您还知道其他哪些Python数据挖掘库? 您对他们有什么经验? 请在下面分享你的评论。

翻译自: https://opensource.com/article/18/9/top-3-python-libraries-data-science

python数据科学库

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值