一、 python数据分析基础库的导入
基本是固定搭配
import numpy as np #科学计算基础库,多维数组对象ndarray
import pandas as pd #数据处理库,DataFrame(二维数组)
import matplotlib as mpl #画图基础库
import matplotlib.pyplot as plt #最常用的绘图库
mpl.rcParams["font.family"]="SimHei" #使用支持的黑体中文字体
mpl.rcParams["axes.unicode_minus"]=False # 用来正常显示负号 "-"
plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签
# % matplotlib inline #jupyter中用于直接嵌入图表,不用plt.show()
import warnings
warnings.filterwarnings("ignore") #用于排除警告
#用于显示使用库的版本
print("numpy_" + np.__version__)
print("pandas_" + pd.__version__)
print("matplotlib_"+ mpl.__version__)
numpy_1.17.4
pandas_0.23.4
matplotlib_2.2.3
二、基础回顾
基本使用简单描述统计1
统计:
sum, mean, std, var,
min, max, argmin, argmax
cumsum, cumprod
排序相关
sort(axis)、
unique( )
随机数生成
from numpy.random import **
numpy.random
简单的随机数据
rand(d0, d1, …, dn),
randn(d0, d1, …, dn)
sigma * np.random.randn(…) + mu
randint(low[, high, size])
random_integers(low[, high, size])
choice(a[, size, replace, p])
排列
shuffle(x) #洗牌
permutation(x) #转置
changes=pd.DataFrame(np.random.normal(loc=0.001,scale=np.sqrt(0.005),size=(100,100)))
#np.random.normal(loc=期望值,scale=标准差,size=(行个数,列个数)),
#生成期望为0.001,方差为0.005(标准差sqrt(0.005))的服从正态分布的100 rows × 100 columns个数,然后放入二维表中
#print(changes.head()) #获取前5行
display(changes.loc[:3,:3]) #切片获取前4行,前4列
#changes.plot() 简单的化一个折线图
returns = changes.cumsum(axis=0) #cumsum(0)表示按照行进行累加
display(returns.loc[97:100,:3])
#returns.plot()简单的化一个折线图
print(returns.loc[99,].mean())#计算最后一行的均值
print(returns.loc[99,].std()) #计算最后一行的标准差
print(returns.loc[99,].var()) #计算最后一行的方差