Python数据分析常用库
Numpy, Scipy, Matplotlib, Pandas, Scikit-Learn, Keras, Gensim.
通过pip安装
# 以numpy为例
pip install numpy
Numpy
提供多维数组功能,以及对数据进行快速处理的函数。
Scipy
提供矩阵,以及大量基于矩阵运算的对象和函数。
功能:最优化、线性代数、积分、插值、拟合、信号处理和图像处理、常微分方程求解等。
参考链接:
http//www.scipy.org/
Matplotlib
数据可视化,主要用于二维绘图。
作图基本代码:
import matplotlib.pyplot as plt
# 设置图像大小
plt.figure(figsize=(10, 15))
# 作图,设置标签、线条颜色、线条大小,线条类型
plt.plot(x, y, 'b--', label = 'example', linewidth = 2)
# color = 'red'
# x轴和y轴名称
plt.xlabel('Time(s)')
plt.ylabel('Volumn')
# 标题
plt.title('A Simple Example')
# y轴的显示范围
plt.ylim(0, 2.2)
# 显示图例
plt.legend()
#显示作图结果
plt.show() # 只需要打一次
参考链接:
http://matplotlib.org/
Seaborn
基于matplotlib的一种视觉可视化工具。
里面有countplot,barplot,heatmap,distplot,pairplot
参考链接:https://seaborn.pydata.org/
Pandas
是python中最强大的数据分析和探索工具。支持类似于SQL的数据增删改查;支持时间序列分析;支持灵活处理缺失值等。
参考《利用python进行数据分析》
基本的数据结构是:Series,DataFrame
import pandas as pd
# 读取文件(存储路径不能带中文)
pd.read_excel('data.xls')
pd.read_csv('data.csv', encoding = 'utf-8')
# 读取文本格式的数据一般用encoding指定编码
参考链接:
http://pandas.pydata.org/pandas-docs/stable/
StatsModels
注重数据的统计建模分析,更有R语言的味道。
参考链接:
http://statsmodels.sourceforge.net/stable/index.html
Scikit-Learn
与机器学习相关的库。它提供完善的机器学习工具箱,包括数据预处理、分类、回归、聚类、预测和模型分析等。
提前先安装好相关库:Numpy,Scipy,Matplotlib。
参考链接:
http://scikit-learn.org/
Keras
包含人工神经网络模型。用Keras搭建神经网络。
Gensim
用来处理语言方面的任务:文本相似度、LDA、Word2Vec等。