python第三方库学习笔记(numpy pandas Matplotlib)

最新推荐文章于 2024-07-29 17:49:35 发布

笙吖

最新推荐文章于 2024-07-29 17:49:35 发布

阅读量243

点赞数

文章标签： python 学习笔记 numpy matplotlib pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79853036/article/details/134084660

版权

一、python数据分析概述
- jupyter notebook的界面及构成
  - 编辑模式：用于编辑文本和代码，按“enter”进入编辑模式
  - 命令模式：用于执行键盘的快捷指令，按“esc”进入命令模式
- 命令模式的快捷键
  - esc：进入命令模式
  - enter：进入编辑模式
  - Y：切换代码单元
  - M：切换至markdown单元
  - B：在本单元下方增加一单元
  - H：查看所有快捷指令
  - shift+enter：运行代码
- jupyter notebook高级功能【markdown】状态下
  - 标题
- 列表
- 表格
- 数学公式
- 字体
- 数据分析的流程（1-6）
  - 1.需求分析：
  - 2.数据分析：
  - 3.数据预处理：
  - 4.分析与建模：
  - 5.模型评价与优化：
  - 6.部署：
- python数据分析常用类库
二、Numpy数值计算基础
- 创建numpy矩阵：
  - 常用的矩阵创建函数（jupter notebook实操）
    - mat函数
    - matrix函数
    - bmat函数：实现将小矩阵组合成大矩阵
  - 掌握ufunc函数（jupter notebook实操）
    - 常用的运算
      - 四则运算：操作对象是数组，两个数组的形状必须相同
      - 比较运算：返回的结果是一个布尔数组
      - 逻辑运算：1.numpy.all函数：and 2.numpy.any函数：or
- ufunc函数的广播机制
  - 前提：进行ufunc计算是两个数组的shape一致，若不一致，那么numpy会实行广播机制
  - 四个原则：
- 利用numpy进行统计分析
  - 二进制文件的读写
    - save函数：以二进制的格式保存文件
    - savez函数：保存多个数组到一个文件中，扩展名.npz
    - load函数：读取二进制文件
  - 文本格式数据的读写
    - savetxt函数：将数组写到以某种分隔符隔开的文本文件中
    - loadtxt函数：将文件加载到一个二维数组中
    - genformtxt函数：面向结构化数组和缺失数据
- 利用numpy对数据进行排序
  - 间接排序：对数值直接进行排序
    - sort函数：较为常用的方法，无返回值
  - 直接排序：根据一个或多个键对数据集进行排序
    - argsort函数：返回值为重新排序的下标
    - lexsort函数
- 去重和重复数据
  - unique函数
  - tile函数：
  - repeat函数：
- 常用的统计函数
  - 聚合计算（sum、mean、std、var、min、max）
    - axis=0：沿纵轴进行计算，axis=1：沿横轴进行计算
  - 不聚合计算（cumsum、cumprod）：在默认时，函数并不按照任一轴向计算，而是计算一个总值
三、pandas统计分析基础
- pandas是什么：是python的核心数据分析支持库，提供了快速、灵活、明确的数据结构
  - pandas功能：矩阵运算、数据清洗、数据处理、时间序列
- 统计方法：
- 常用基本操作
  - 读/写不同数据源的数据
    - 文本文件：一种由若干行字符构成的计算机文件，他是一种典型的顺序文件。.CSV文件 .TXT文件
      - 文件的读取：
        pandas.read_table（读取文本文件）
        
        pandas.read_csv（读取CSV文件）
      - 文件的写入：
        DataFrame.to_csv
    - Excel文件：
      - excel文件的读取：
        pandas.read_excel
      - excel文件的写入：
        DataFrame.to_excel
    - 数据库数据：在生产环境中，绝大多数的数据都存储在数据库中
      - 数据库的读取：
        pandas.read_sql_table(只能读取数据库中的某个表格，不能实现查询操作）
        
        pandas.read_sql_query（只能实现查询）
        
        pandas.read_sql（既能实现读取数据库中的某个表，又能查询）
      - 数据库的写入
        DataFrame.to_sql
  - pandas中用到的数据结构是DataFrame
    - DataFrame：是表格型的数据结构，包含有一组有序的列，每列可以是不同的值类型，既有行索引也有列索引
    - 常用属性：values、index 、columns、 dtypes
    - DataFrame增删改查
      - DataFrame查找功能：
        data
        
        data.iloc
        
        data.loc
        
        布尔值序列查询，只会获取到布尔值为true的值
      - DataFrame增删改：
        增加：data['列名']='值'
        
        修改：data.loc[[索引值],'列名']='值'
        
        删除：data.drop（axis=1为横向，axis=0为纵向）
    - 描述分析
  - pandas中可以进行转换与处理时间序列数据
    - 数据分析的分析对象常用的数据类型包括了时间类型。
      - 转换字符串时间为标准时间（pandas.to_datetime）
      - 提取时间序列数据信息
      - 加减时间数据
  - pandas中可以使用分组聚合进行组内计算
    - 依据某个或某几个对数据集进行分组，并对各组应用一个函数
    - 分组与聚合的过程：
      - 拆分（分组）groupby：将数据集按照一些标准拆分为若干组
        
        应用
        
        合并
        DataGroupd.sum（用于聚合函数）
        
        DataGroupd.agg（用于自定义函数）
        
        DataGroupd.apply（用于不是聚合函数，不是自定义函数，比如排序函数）
        
        DataGroupd.transform（所有元素）
  - pandas中可以创建透视表与交叉表
    - 透视表：
      - 创建透视表：DataFrame.pivot_table
      - 分组
    - 交叉表：一种特殊的透视表，主要用于计算分组频率（pandas.crosstab）
    - 分组
四、使用pandas进行数据预处理
- 合并数据
  - 堆叠合并数据（concat函数）：简单地将两个表拼在一起，也被称为轴向连接、绑定、连接
    - 横向堆叠（concat函数）：将两个表在x轴向拼接在一起
    - 纵向堆叠（concat函数）（append（）方法）：将两个数据表在y轴向上拼接
      - append（）方法:两张表的列名需要完全一致
  - 主键合并数据：通过一个或多个键将两个数据集的行连接起来，类似于sql中的join
    - merge函数
    - join（）方法：两个主键的名字必须相同
  - 重叠合并数据
- 清洗数据
  - 检测与处理数据的重复值
    - 记录重复
      - 列表List：代码冗长
      - 集合set：数据的排列发生改变
      - drop_duplicates：不改变数据原始排列、代码简洁、运行稳定
    - 特征重复
      - 存在一个或多个特征名称不同，但数据完全相同的情况
  - 检测与处理数据的缺失值
    - 检测：isnull（）识别缺失值，notnull（）识别非缺失值
    - 处理：
      - 删除法：pandas.DataFrame.dropna
      - 替换法：对结果影响不是很大的情况
      - 插值法：缺失值较高的时候
  - 检测与处理数据的异常值
    - 数据服从正态分布，近似服从正态分布
    - 箱线图
- 标准化数据
  - 离差标准化方法
  - 标准差标准化方法（零均值表转化，分数标准化）：处理的数据均值为0，标准差为1
  - 小数定标标准化方法
- 转换数据
  - 哑变量处理类别型数据（pandas.get_dummies）
  - 离散化连续型数据
    - 等宽法（pandas.cut）
    - 等频法（pandas.cut）
    - 聚类分析法
五、Matplotlib、seaborn、pyecharts数据可视化基础（绘图）
- matplotlib基础绘图
  - pyplot绘图基础
    - pyplot绘图的基本流程及语法（将matplotlib.pyplot简写为plt）
      - 1、创建画布（plt.figure）
      - 创建子图（figure.add_subplot）
      - 2、添加画布内容
      - 3、保存（plt.savefig）
      - 展示图形（plt.show）
    - pyplot能绘制的图形及函数
    - 绘制热力图（heat chart）
      - heatmap函数的基本使用格式：
    - 绘制3d散点图
    - 绘制词云图
  - 使用sklearn转换器进行数据预处理与降维
    - sklearn转换器的方法：fit（）：主要进行分析特征和目标值提取有价值的信息、transform（）：主要用于对特征进行转换、fit_transform（）：先调用fit方法，再调用transform方法
    - PCA类降维

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python第三方库学习笔记(numpy pandas Matplotlib)

一、python数据分析概述 jupyter notebook的界面及构成编辑模式：用于编辑文本和代码，按“enter”进入编辑模式命令模式：用于执行键盘的快捷指令，按“esc”进入命令模式命令模式的快捷键 esc：进入命令模式 enter：进入编辑模式 Y：切换代码单元 M：切换至markdown单元 B：在本单元下方增加一单元 H：查看所有快捷指令 shift+enter：运行代码 jupyter noteboo
复制链接

扫一扫

笙吖 CSDN认证博客专家 CSDN认证企业博客

码龄1年

6: 原创

91万+: 周排名

42万+: 总排名

596: 访问

: 等级

61: 积分

0: 粉丝

0: 获赞

2: 评论

1: 收藏

私信

关注

热门文章

最新评论

c语言循环（switch、while 、do while、for 、break continue）
CSDN-Ada助手: 恭喜你开始博客创作！看到你选择了"C语言循环（switch、while、do while、for、break continue）"这个主题，我感到非常高兴。这是一个非常重要的主题，对于学习C语言的人来说，循环结构是必不可少的知识点之一。在你的博客中，你可以详细介绍每种循环结构的语法和用法，并举一些实例来帮助读者更好地理解。你可以通过解释每个循环结构的特点和适用场景，帮助读者更好地掌握它们的使用方法。此外，如果可能的话，你可以提供一些常见的错误示例和解决方案，帮助读者避免在使用循环结构时常见的陷阱。总之，我希望你能够继续分享你的知识和经验，让更多的人受益。期待看到你下一篇博客的发布！祝你写作愉快！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
linux基础知识
CSDN-Ada助手: 很高兴看到你写了第二篇博客！继续创作是非常棒的，你可以分享更多关于Linux基础知识的内容，帮助读者更好地理解和应用。关于Linux基础知识，除了你提到的history命令和alias命令，还有一些相关的扩展知识和技能可以进一步了解和学习。例如，你可以介绍一下Linux文件系统的层次结构，包括常见的目录结构和其作用；或者分享一些常用的Linux命令，如ls、cd、grep等，以及它们的参数和用法。此外，你可以探索一下Linux的权限管理，包括文件权限和用户权限，以及如何使用chmod和chown命令进行权限的设置和修改。另外，Linux的软件包管理也是一个重要的主题，你可以介绍一下常用的软件包管理工具，如apt、yum等，以及如何使用它们进行软件的安装和升级。希望以上建议能对你的博客内容有所帮助。继续努力，期待看到更多精彩的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
python数据分析与应用基础笔记
CSDN-Ada助手: 恭喜你写完了第三篇博客！看到你持续创作并分享关于"python数据分析与应用基础"的笔记，真是令人钦佩。你的博客内容对于初学者来说非常有帮助，我也从中学到了不少知识。希望你继续保持这样的创作热情，继续分享你的学习心得。下一步，我建议你可以考虑深入探讨一些应用案例，或者分享一些实际项目中的应用经验，这样可以进一步帮助读者更好地理解和应用Python数据分析。谢谢你的分享，并期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
python第三方库学习笔记(numpy pandas Matplotlib)
CSDN-Ada助手: 恭喜你写完了第四篇博客！看到你学习了numpy、pandas和Matplotlib这几个Python第三方库，我感到非常欣慰。你在博客中分享的学习笔记对于初学者来说肯定是非常有帮助的。不过，在下一步的创作中，我建议你可以考虑加入更多实践案例，让读者更好地理解这些库的应用场景。继续写博客的同时，也不要忘记保持谦虚的态度，因为学习是一个不断探索的过程。期待你的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
linux目录树
CSDN-Ada助手: 恭喜您写了第5篇博客，题目为“linux目录树”。很高兴看到您持续创作，并分享有关Linux目录树的知识。您的博客内容非常有用，对于初学者来说尤其受益匪浅。在您未来的创作中，我建议您可以探索一下不同Linux发行版之间的目录结构的差异，以及这些差异对于日常使用和管理的影响。这样的内容对于读者来说也会非常有趣和实用。同时，也请继续保持谦虚的态度，因为您的博客已经成为了许多人学习的宝贵资源。期待您的下一篇精彩文章！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。