使用Python进行数据处理的几个基础工具

数据处理

Matplotlib

figure创建画布

  • num编号或名称

  • figsize绘图对象的宽和高,英寸

  • dpi分辨率

  • facecolor背景颜色

    • b,blue
    • g,green
  • edgecolor边框颜色

  • frameon是否显示边框

划分子图subplot

设置字体

  • 设置中文字体plt.rcParams[“font.sans-serif”]=“SimHei”
  • 恢复默认plt.rcdefaults()

标题

  • 全局标题suptitle

    • x标题坐标
    • y标题坐标
    • color标题颜色
  • 子标题title

    • loc标题位置
    • rotation标题文资旋转角度

调整子图tight_layout()

散点图scatter

  • x数据点x坐标
  • y数据点y坐标
  • color数据点颜色
  • marker数据点样式
  • label图例文字

添加文字说明text()

  • x文字坐标
  • y文字坐标
  • s,显示的文字

字体为中文时可能影响坐标负号的显示,plt.rcParams[“axes.unicode_minus”]=False

坐标轴的调整

  • xlabel,x轴标签
  • ylabel,y轴标签
  • xlim,x轴范围
  • ylim,y轴范围

图例

  • 画图的时候要有label
  • 然后用legend(loc,fontsize)

折线图plot

  • x
  • y
  • label
  • color
  • marker

柱图bar

  • left
  • height
  • width
  • facecolor
  • edgecolor
  • label

Keras

加载数据集load_data()方法

调整训练集和测试集比例

下载数据集utils.get

色彩映射

plt.scatter(x,y,c,cmap)

  • 将参数c指定为一个列表或数组,cmap对应颜色
  • 例如:dot_color=[0,1,2,0,2,1,1,1,0,]
    plt.scatter(x,y,dot_color,cmap=‘brg’)

Pandas库

读取csv数据集文件pd.read_csv(filepath_or_buffer,header,names)

  • 绝对路径或相对路径
  • header=0,第一行数据作为列标题(默认)
  • header=None,没有列标题
  • names自定义列标题,代替header参数指定的列标题

访问数据

  • head()不加参数默认前5行
  • tail()不加参数默认后5行
  • 也可以切片读取

显示统计信息

  • describe()方法

    • 总数
    • 平均值
    • 标准差
    • 最大值

pandas读取之后的数据类型为DataFrame

  • 属性

    • ndim
    • shape
    • size
  • 转化为NumPy数组

    • np.array()
    • .values()
    • .as_matrix()

Numpy

创建Numpy数组array([列表]/(元组))

  • 子主题 1

数组的属性

  • 维数ndim
  • 形状shape
  • 元素个数size
  • 元素数据类型dtype
  • 元素的字节数itemsize

特殊数组

  • arange
  • ones
  • zeros
  • eye
  • 等差数列linspace
  • 等比数列logspace

操作

  • 切片

  • 改变数组形状

    • 不改变当前数组reshape
    • 改变当前数组resize

运算

  • 数组间的运算:加减乘除

  • 矩阵运算

    • 叉乘
    • 点乘dot或matmul
    • 矩阵转置transpose
    • 矩阵求逆linalg.inv
  • 数组元素间的运算

    • sum

      • 按行求和、按列求和会把那个维度变没
      • 涉及到轴axes
      • 数组的秩rank ,有几维rank就等于几
    • 所有元素的乘积prod

    • 相邻元素之间的差diff

    • sqrt

    • exp各元素的指数值

    • abs

  • 堆运算

    • stack不是np数组也可以堆叠

矩阵

  • 创建矩阵matrix或mat

  • 属性

    • ndim维数
    • shape形状
    • size元素个数
    • dtype数据类型
  • 运算

    • 矩阵相乘
    • 转置T
    • 求逆I,非方阵也可以

随机数模块random

  • 5种随机数

    • rand[0,1)均匀分布
    • uniform均匀分布
    • randint均匀分布整数
    • randn标准正态分布
    • normal正态分布
  • 随机种子seed(),设置仅一次有效

  • 打乱顺序函数shuffle(),多维的只打乱最外维0维

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值