Python数据分析常用的第三方扩展库

Python数据分析常用库

Numpy, Scipy, Matplotlib, Pandas, Scikit-Learn, Keras, Gensim.

通过pip安装

# 以numpy为例
pip install numpy

Numpy

提供多维数组功能,以及对数据进行快速处理的函数。

Scipy

提供矩阵,以及大量基于矩阵运算的对象和函数。
功能:最优化、线性代数、积分、插值、拟合、信号处理和图像处理、常微分方程求解等。

参考链接:
http//www.scipy.org/

Matplotlib

数据可视化,主要用于二维绘图。

作图基本代码:

import matplotlib.pyplot as plt

# 设置图像大小
plt.figure(figsize=(10, 15))
# 作图,设置标签、线条颜色、线条大小,线条类型
plt.plot(x, y, 'b--', label = 'example', linewidth = 2)
# color = 'red'
# x轴和y轴名称
plt.xlabel('Time(s)')
plt.ylabel('Volumn')
# 标题
plt.title('A Simple Example')
# y轴的显示范围
plt.ylim(0, 2.2)
# 显示图例
plt.legend()
#显示作图结果
plt.show() # 只需要打一次

参考链接:
http://matplotlib.org/

Seaborn

	基于matplotlib的一种视觉可视化工具。
	里面有countplot,barplot,heatmap,distplot,pairplot

参考链接:https://seaborn.pydata.org/

Pandas

是python中最强大的数据分析和探索工具。支持类似于SQL的数据增删改查;支持时间序列分析;支持灵活处理缺失值等。
参考《利用python进行数据分析》
基本的数据结构是:Series,DataFrame
import pandas as pd

# 读取文件(存储路径不能带中文)
pd.read_excel('data.xls')
pd.read_csv('data.csv', encoding = 'utf-8')
# 读取文本格式的数据一般用encoding指定编码

参考链接:
http://pandas.pydata.org/pandas-docs/stable/

StatsModels

注重数据的统计建模分析,更有R语言的味道。

参考链接:
http://statsmodels.sourceforge.net/stable/index.html

Scikit-Learn

与机器学习相关的库。它提供完善的机器学习工具箱,包括数据预处理、分类、回归、聚类、预测和模型分析等。
提前先安装好相关库:Numpy,Scipy,Matplotlib。

参考链接:
http://scikit-learn.org/

Keras

包含人工神经网络模型。用Keras搭建神经网络。

Gensim

用来处理语言方面的任务:文本相似度、LDA、Word2Vec等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值