python第三方库学习笔记(numpy pandas Matplotlib)

  • 一、python数据分析概述
    • jupyter notebook的界面及构成
      • 编辑模式:用于编辑文本和代码,按“enter”进入编辑模式

      • 命令模式:用于执行键盘的快捷指令,按“esc”进入命令模式

    • 命令模式的快捷键
      • esc:进入命令模式
      • enter:进入编辑模式
      • Y:切换代码单元
      • M:切换至markdown单元
      • B:在本单元下方增加一单元
      • H:查看所有快捷指令
      • shift+enter:运行代码
    • jupyter notebook高级功能【markdown】状态下
      • 标题
    • 列表
    • 表格
    • 数学公式
    • 字体
    • 数据分析的流程(1-6)
      • 1.需求分析:

      • 2.数据分析:

      • 3.数据预处理:

      • 4.分析与建模:

      • 5.模型评价与优化:

      • 6.部署:

    • python数据分析常用类库
  • 二、Numpy数值计算基础
    • 创建numpy矩阵:

      • 常用的矩阵创建函数(jupter notebook实操)
        • mat函数
        • matrix函数
        • bmat函数:实现将小矩阵组合成大矩阵
      • 掌握ufunc函数(jupter notebook实操)

        • 常用的运算
          • 四则运算:操作对象是数组,两个数组的形状必须相同
          • 比较运算:返回的结果是一个布尔数组
          • 逻辑运算:1.numpy.all函数:and 2.numpy.any函数:or
    • ufunc函数的广播机制
      • 前提:进行ufunc计算是两个数组的shape一致,若不一致,那么numpy会实行广播机制
      • 四个原则:

    • 利用numpy进行统计分析
      • 二进制文件的读写
        • save函数:以二进制的格式保存文件

        • savez函数:保存多个数组到一个文件中,扩展名.npz
        • load函数:读取二进制文件
      • 文本格式数据的读写
        • savetxt函数:将数组写到以某种分隔符隔开的文本文件中

        • loadtxt函数:将文件加载到一个二维数组中

        • genformtxt函数:面向结构化数组和缺失数据
    • 利用numpy对数据进行排序
      • 间接排序:对数值直接进行排序
        • sort函数:较为常用的方法,无返回值
      • 直接排序:根据一个或多个键对数据集进行排序
        • argsort函数:返回值为重新排序的下标
        • lexsort函数
    • 去重和重复数据
      • unique函数
      • tile函数:

      • repeat函数:

    • 常用的统计函数
      • 聚合计算(sum、mean、std、var、min、max)
        • axis=0:沿纵轴进行计算,axis=1:沿横轴进行计算
      • 不聚合计算(cumsum、cumprod):在默认时,函数并不按照任一轴向计算,而是计算一个总值
  • 三、pandas统计分析基础
    • pandas是什么:是python的核心数据分析支持库,提供了快速、灵活、明确的数据结构
      • pandas功能:矩阵运算、数据清洗、数据处理、时间序列
    • 统计方法:

    • 常用基本操作
      • 读/写不同数据源的数据
        • 文本文件:一种由若干行字符构成的计算机文件,他是一种典型的顺序文件。.CSV文件 .TXT文件
          • 文件的读取:
            • pandas.read_table(读取文本文件)

            • pandas.read_csv(读取CSV文件)

          • 文件的写入:
            • DataFrame.to_csv

        • Excel文件:

          • excel文件的读取:
            • pandas.read_excel

          • excel文件的写入:
            • DataFrame.to_excel

        • 数据库数据:在生产环境中,绝大多数的数据都存储在数据库中
          • 数据库的读取:
            • pandas.read_sql_table(只能读取数据库中的某个表格,不能实现查询操作)

            • pandas.read_sql_query(只能实现查询)

            • pandas.read_sql(既能实现读取数据库中的某个表,又能查询)

          • 数据库的写入
            • DataFrame.to_sql

      • pandas中用到的 数据结构是DataFrame
        • DataFrame:是表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型,既有行索引也有列索引
        • 常用属性:values、index 、columns、 dtypes
        • DataFrame增删改查
          • DataFrame查找功能:
            • data

            • data.iloc

            • data.loc

            • 布尔值序列查询,只会获取到布尔值为true的值

          • DataFrame增删改:
            • 增加:data['列名']='值'
            • 修改:data.loc[[索引值],'列名']='值'
            • 删除:data.drop(axis=1为横向,axis=0为纵向)

        • 描述分析
      • pandas中可以进行转换与处理时间序列数据
        • 数据分析的分析对象常用的数据类型包括了时间类型。

          • 转换字符串时间为标准时间(pandas.to_datetime)

          • 提取时间序列数据信息
          • 加减时间数据

      • pandas中可以使用分组聚合进行组内计算
        • 依据某个或某几个对数据集进行分组,并对各组应用一个函数
        • 分组与聚合的过程:
          • 拆分(分组)groupby:将数据集按照一些标准拆分为若干组

            • 应用
            • 合并
              • DataGroupd.sum(用于聚合函数)

              • DataGroupd.agg(用于自定义函数)

              • DataGroupd.apply(用于不是聚合函数,不是自定义函数,比如排序函数)

              • DataGroupd.transform(所有元素)

      • pandas中可以创建透视表与交叉表
        • 透视表:

          • 创建透视表:DataFrame.pivot_table

          • 分组

        • 交叉表:一种特殊的透视表,主要用于计算分组频率(pandas.crosstab)

        • 分组

  • 四、使用pandas进行数据预处理
    • 合并数据
      • 堆叠合并数据(concat函数): 简单地将两个表拼在一起,也被称为轴向连接、绑定、连接

        • 横向堆叠(concat函数):将两个表在x轴向拼接在一起
        • 纵向堆叠(concat函数)(append()方法):将两个数据表在y轴向上拼接
          • append()方法:两张表的列名需要完全一致

      • 主键合并数据:通过一个或多个键将两个数据集的行连接起来,类似于sql中的join
        • merge函数

        • join()方法:两个主键的名字必须相同

      • 重叠合并数据
    • 清洗数据
      • 检测与处理数据的重复值
        • 记录重复
          • 列表List:代码冗长
          • 集合set:数据的排列发生改变
          • drop_duplicates:不改变数据原始排列、代码简洁、运行稳定

        • 特征重复
          • 存在一个或多个特征名称不同,但数据完全相同的情况

      • 检测与处理数据的缺失值
        • 检测:isnull()识别缺失值,notnull()识别非缺失值
        • 处理:
          • 删除法:pandas.DataFrame.dropna

          • 替换法:对结果影响不是很大的情况
          • 插值法:缺失值较高的时候
      • 检测与处理数据的异常值
        • 数据服从正态分布,近似服从正态分布

        • 箱线图
    • 标准化数据
      • 离差标准化方法

      • 标准差标准化方法(零均值表转化,分数标准化):处理的数据均值为0,标准差为1

      • 小数定标标准化方法

    • 转换数据
      • 哑变量处理类别型数据(pandas.get_dummies)

      • 离散化连续型数据
        • 等宽法(pandas.cut)

        • 等频法(pandas.cut)

        • 聚类分析法

  • 五、Matplotlib、seaborn、pyecharts数据可视化基础(绘图)
    • matplotlib基础绘图
      • pyplot绘图基础
        • pyplot绘图的基本流程及语法( 将matplotlib.pyplot简写为plt)

          • 1、创建画布(plt.figure)
          • 创建子图(figure.add_subplot)

          • 2、添加画布内容

          • 3、保存(plt.savefig)
          • 展示图形(plt.show)

        • pyplot能绘制的图形及函数

        • 绘制热力图(heat chart)
          • heatmap函数的基本使用格式:

        • 绘制3d散点图

        • 绘制词云图

      • 使用sklearn转换器进行数据预处理与降维
        • sklearn转换器的方法:fit():主要进行分析特征和目标值提取有价值的信息、transform():主要用于对特征进行转换、fit_transform():先调用fit方法,再调用transform方法
        • PCA类降维

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值