文章目录
- Numpy(Numerical Python)
- Pandas
- 补充
Numpy(Numerical Python)
是一个功能强大的Python库,主要用于对多维数组执行计算,其提供了大量的库函数,可应用于矩阵的计算,图像的处理、各类数学任务计算(例如,微积分)等,是一种基于Python的MATLAB的快速替代。下面通过代码块展示Numpy部分可实现的功能:
# 使用NumPy创建数组array
import numpy as np
data = np.array([1,2,3,4,5,6,7,8,9,10]) #生成一维数组
data_d = np.array([[1,2,3],[3,4,5]]) #生成二维数组
d1 = np.zeros(10,dtype=int) #生成长度为10,数值全部为0的数组
d2 = np.ones(10,dtype=int) #生成长度为10,数值全部为1的数组
d3 = np.arange(0,10,1) #生成[0,10],间隔为1的数据序列
d4 = np.eye(3) #生成3*3单位矩阵
d5 = np.random.randint(0,10,10) #随机生成长度为10,数值于[0,10]之间的数组
# 使用Numpy计算描述性统计指标(部分,详情可参照本文概要图)
from numpy import mean, median
from scipy.stats import mode
data_mean = mean(data)
data_median = median(data)
data_mode = mode(data)
Pandas
是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。下面通过代码块展示Numpy部分可实现的功能:
# 使用Pandas创建Series and DataFream
import pandas as pd
data = pd.Series(100,index = range(4)) #Series是一个自带索引index的数组
d1 = pd.Series(np.random.rand(5), index = list("abcde")) #自定义索引
# pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
d2 = pd.DataFrame(np.random.randn(8,5)) #创建8*5随机数据矩阵
d3 = pd.read_csv() #读取csv文件
d4 = pd.read_excel() #读取excel文件
# 使用pandas计算描述性统计指标(部分,详情可参照本文概要图)
data_var = data.var()
data_std = data.std()
data_iqr = data.quantile(0.75)-data.quantile(0.25)
补充
# 使用Python连接数据库的代码实现
import pymysql #在 Python3.x 版本中用于连接 MySQL 服务器的一个库
conn=pymysql.connect(host='你的数据库地址',user='用户名',password='密码',db='数据库名',charset='utf8') #连接当地数据库
sql_query1=''' select * from table1 where ...''' #sql提数代码
data=pd.read_sql(sql_query1,con=conn) #读取sql提取数据