[机器学习]Python中Numpy,Pandas,Matplotlib,Scipy,Seaborn介绍

原创 2017年04月20日 15:15:12

Python做数据挖掘很强大,最近几年很火的机器学习以及较为前沿的自然语言处理也会选用Python作为基础工具. 其中python做数据挖掘足够强大,不用怀疑。

1. Numpy介绍

Numpy是Python的一个科学计算的库,提供了矩阵运算的功能,其一般与Scipy、matplotlib一起使用。

用它来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多,本身是由C语言开发。这个是很基础的扩展,其余的扩展都是以此为基础。

数据结构为ndarray,一般有三种方式来创建:
1.Python对象的转换
2.通过类似工厂函数numpy内置函数生成:np.arange,np.linspace…..
3.从硬盘读取,loadtxt

1.1 学习文档视频

详细教程
http://www.jikexueyuan.com/course/1537.html
http://old.sebug.net/paper/books/scipydoc/index.html#id2

2. Pandas介绍

基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。最具有统计意味的工具包,某些方面优于R软件。数据结构有一维的Series,二维的DataFrame(类似于Excel或者SQL中的表,如果深入学习,会发现Pandas和SQL相似的地方很多,例如merge函数),三维的Panel(Pan(el) + da(ta) + s,知道名字的由来了吧)。

2.1 Pandas中的数据结构

Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。
Time- Series:以时间为索引的Series。
DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。以下的内容主要以DataFrame为主。
Panel :三维的数组,可以理解为DataFrame的容器.

2.2 Pandas功能掌握

  1. 汇总和计算描述统计,处理缺失数据 ,层次化索引
  2. 清理、转换、合并、重塑、GroupBy技术
  3. 日期和时间数据类型及工具(日期处理方便地飞起)

2.3 Pandas文档视频资源

10分钟搞定Pandas
http://www.maiziedu.com/course/751-10786/
Pandas的创始者:利用Python进行数据分析 (豆瓣)

3. Matplotlib介绍

Python中最著名的绘图系统,很多其他的绘图例如seaborn(针对pandas绘图而来)也是由其封装而成。创世人John Hunter于2012年离世。这个绘图系统操作起来很复杂,和R的ggplot,lattice绘图相比显得望而却步,这也是为什么我个人不丢弃R的原因,虽然调用

plt.style.use("ggplot")

绘制的图形可以大致按照ggplot的颜色显示,但是还是感觉很鸡肋。但是matplotlib的复杂给其带来了很强的定制性。其具有面向对象的方式及Pyplot的经典高层封装。

3.1 Matplotlib功能掌握

  1. 散点图,折线图,条形图,直方图,饼状图,箱形图的绘制。
  2. 绘图的三大系统:pyplot,pylab(不推荐),面向对象
  3. 坐标轴的调整,添加文字注释,区域填充,及特殊图形patches的使用
  4. 金融的同学注意的是:可以直接调用Yahoo财经数据绘图

3.2 Matplotlib学习文档视频资源

Matplotlib讲解:课程简介和环境搭建
matplotlib-绘制精美的图表

4. Scipy介绍

scipy包包含致力于科学计算中常见问题的各个工具箱。它的不同子模块相应于不同的应用。像插值,积分,优化,图像处理,,特殊函数等等。
scipy可以与其它标准科学计算程序库进行比较,比如GSL(GNU C或C++科学计算库),或者Matlab工具箱。scipy是Python中科学计算程序的核心包;它用于有效地计算numpy矩阵,来让numpy和scipy协同工作。

4.1 Scipy文档资源视频

Scipy:高端科学计算
Scipy入门
SciPy-数值计算库

5. Seaborn介绍

Matplotlib是Python主要的绘图库。但是,我不建议你直接使用它,原因与开始不推荐你使用NumPy是一样的。虽然Matplotlib很强大,它本身就很复杂,你的图经过大量的调整才能变精致。因此,作为替代,我推荐你一开始使用Seaborn。Seaborn本质上使用Matplotlib作为核心库(就像Pandas对NumPy一样)

5.1 Seaborn功能

  1. 默认情况下就能创建赏心悦目的图表。(只有一点,默认不是jet colormap)
  2. 创建具有统计意义的图
  3. 能理解pandas的DataFrame类型,所以它们一起可以很好地工作。

5.2 文档视频资源

Python和数据科学的起步指南
python高级绘图库seaborn

版权声明:本文为博主原创文章,未经博主允许不得转载。

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

前面几篇文章采用的案例的方法进行介绍的,这篇文章主要介绍Python常用的扩展包,同时结合数据挖掘相关知识介绍该包具体的用法,主要介绍Numpy、Pandas和Matplotlib三个包。目录: ...
  • Eastmount
  • Eastmount
  • 2016年11月14日 04:39
  • 11828

windows下Python机器学习依赖库安装——numpy、scipy、sklearn、xgboost、theano等

windows下python依赖包安装,写给新手朋友,少一点弯路!
  • a132582
  • a132582
  • 2017年04月22日 00:26
  • 4182

python3 科学计算模块 numpy、pandas、sns、seaborn等模块安装遇到的问题

我用的python版本是python3.4,在学习完python基本语法和爬虫模块后,准备用python做数据分析。在安装模块的时候遇到了很多问题,所以记录下问题及解决方法,希望可以帮到别人。 ...
  • Brezee_xy
  • Brezee_xy
  • 2016年07月28日 11:29
  • 2008

机器学习的相关模块安装:pandas,numpy, scipy,scikit_learn(sklearn), matplotlib在winows系统下的安装问题

Anaconda Spider等python的集成开发工具是好,但有时候单独配置出一个理想的开发环境也是不错的。用的Win10操作系统,python3.6,64位解释器,pycharm编辑器,搭建py...
  • Elvira_two
  • Elvira_two
  • 2017年05月17日 20:54
  • 155

Python 机器学习的开发环境搭建(numpy,scipy,matplotlib)

一、概述 Numpy :      主要用来做一些科学运算,主要是矩阵的运算。NumPy为Python带来了真正的多维数组功能,并且提供了丰富的函数库处理这些数组。它将常用的数学函数都进行数组化,...
  • Daybreak1209
  • Daybreak1209
  • 2016年11月07日 18:58
  • 654

python 机器学习的开发环境搭建(numpy,scipy,matplotlib)

转自:http://blog.chinaunix.net/uid-26642637-id-4543576.html 一、概述 用Python来编写机器学习方面的代码是相当简单的,因为Python下...
  • k_shmily
  • k_shmily
  • 2016年11月22日 15:01
  • 331

python科学计算--核心工具包一瞥(二)(win10 64位,numpy,scipy,pandas,seaborn,wordcloud安装)

1.安装numpy,scipy (1)在网站http://www.lfd.uci.edu/~gohlke/pythonlibs/上下载: numpy-1.11.1+mkl-cp27-cp27m-w...
  • liying700
  • liying700
  • 2017年06月23日 20:59
  • 871

Python3.6机器学习使用的Matplotlib、pandas和基础包

  • 2017年05月26日 12:40
  • 16.05MB
  • 下载

机器学习 Numpy Scipy Matplotlib Scikit-Learn的安装

我所采用的python版本号是27.9 64bit 你可以通过python -v查看你自己的python版本号python算法库安装顺序:Numpy Scipy Matplotblib Sc...
  • caicai_zju
  • caicai_zju
  • 2016年04月05日 16:12
  • 655

python Numpy,SciPy,MatplotLib,pandas安装流程

python Numpy,SciPy,MatplotLib,pandas安装流程
  • love072422
  • love072422
  • 2017年03月28日 10:09
  • 310
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:[机器学习]Python中Numpy,Pandas,Matplotlib,Scipy,Seaborn介绍
举报原因:
原因补充:

(最多只允许输入30个字)