数据处理
Matplotlib
figure创建画布
-
num编号或名称
-
figsize绘图对象的宽和高,英寸
-
dpi分辨率
-
facecolor背景颜色
- b,blue
- g,green
-
edgecolor边框颜色
-
frameon是否显示边框
划分子图subplot
设置字体
- 设置中文字体plt.rcParams[“font.sans-serif”]=“SimHei”
- 恢复默认plt.rcdefaults()
标题
-
全局标题suptitle
- x标题坐标
- y标题坐标
- color标题颜色
-
子标题title
- loc标题位置
- rotation标题文资旋转角度
调整子图tight_layout()
散点图scatter
- x数据点x坐标
- y数据点y坐标
- color数据点颜色
- marker数据点样式
- label图例文字
添加文字说明text()
- x文字坐标
- y文字坐标
- s,显示的文字
字体为中文时可能影响坐标负号的显示,plt.rcParams[“axes.unicode_minus”]=False
坐标轴的调整
- xlabel,x轴标签
- ylabel,y轴标签
- xlim,x轴范围
- ylim,y轴范围
图例
- 画图的时候要有label
- 然后用legend(loc,fontsize)
折线图plot
- x
- y
- label
- color
- marker
柱图bar
- left
- height
- width
- facecolor
- edgecolor
- label
Keras
加载数据集load_data()方法
调整训练集和测试集比例
下载数据集utils.get
色彩映射
plt.scatter(x,y,c,cmap)
- 将参数c指定为一个列表或数组,cmap对应颜色
- 例如:dot_color=[0,1,2,0,2,1,1,1,0,]
plt.scatter(x,y,dot_color,cmap=‘brg’)
Pandas库
读取csv数据集文件pd.read_csv(filepath_or_buffer,header,names)
- 绝对路径或相对路径
- header=0,第一行数据作为列标题(默认)
- header=None,没有列标题
- names自定义列标题,代替header参数指定的列标题
访问数据
- head()不加参数默认前5行
- tail()不加参数默认后5行
- 也可以切片读取
显示统计信息
-
describe()方法
- 总数
- 平均值
- 标准差
- 最大值
pandas读取之后的数据类型为DataFrame
-
属性
- ndim
- shape
- size
-
转化为NumPy数组
- np.array()
- .values()
- .as_matrix()
Numpy
创建Numpy数组array([列表]/(元组))
- 子主题 1
数组的属性
- 维数ndim
- 形状shape
- 元素个数size
- 元素数据类型dtype
- 元素的字节数itemsize
特殊数组
- arange
- ones
- zeros
- eye
- 等差数列linspace
- 等比数列logspace
操作
-
切片
-
改变数组形状
- 不改变当前数组reshape
- 改变当前数组resize
运算
-
数组间的运算:加减乘除
-
矩阵运算
- 叉乘
- 点乘dot或matmul
- 矩阵转置transpose
- 矩阵求逆linalg.inv
-
数组元素间的运算
-
sum
- 按行求和、按列求和会把那个维度变没
- 涉及到轴axes
- 数组的秩rank ,有几维rank就等于几
-
所有元素的乘积prod
-
相邻元素之间的差diff
-
sqrt
-
exp各元素的指数值
-
abs
-
-
堆运算
- stack不是np数组也可以堆叠
矩阵
-
创建矩阵matrix或mat
-
属性
- ndim维数
- shape形状
- size元素个数
- dtype数据类型
-
运算
- 矩阵相乘
- 转置T
- 求逆I,非方阵也可以
随机数模块random
-
5种随机数
- rand[0,1)均匀分布
- uniform均匀分布
- randint均匀分布整数
- randn标准正态分布
- normal正态分布
-
随机种子seed(),设置仅一次有效
-
打乱顺序函数shuffle(),多维的只打乱最外维0维