数据分析工具pandas

本文介绍了Python数据分析库Pandas的基础知识,包括数据读写、数据库操作、核心数据结构Series和DataFrame。重点讲述了数据预处理的各个环节,如查找、删除、添加、修改数据,以及数据清洗中的重复值和缺失值处理。同时,讨论了如何使用Pandas进行数据转换,特别是哑变量处理。
摘要由CSDN通过智能技术生成

1、pandas概述

1.2概述

Pandas = Python Data Analysis Library;基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建;一个强大的Python数据分析的工具包;提供了大量能使我们快速便捷地处理数据的函数和方法

1.2数据处理流程

  1. 数据的读写
  2. 数据预处理(数据清洗)
  3. 数据分析
  4. 数据可视化

2、数据读写

2.1概述

  1. Pandas支持的数据源有:数据库、excel、文本文件、其他。

2.2数据的读写

①.读取泰坦尼克号数据集(下载连接:titanic3.xls)

import pandas as pd
data=pd.read_excel("titanic3.xls",sheet_name="titanic3")
print(data.head())#显示前5条数据

②.读取北京PM2.5的csv数据集(下载连接:BeijingPM2.5.csv)

import pandas as pd
pm25 = pd.read_csv("BeijingPM2.5.csv",sep=",",encoding="utf-8")
print(pm25.tail())#显示最后5条数据

③.read_csv和read_table常用参数及说明

④.写入文件to_csv
在这里插入图片描述
⑤.写入到to_excel
将文件存储为Excel文件,可以使用to_excel方法。其语法格式如下。
DataFrame.to_excel(excel_writer=None, sheetname=None’, na_rep=”, header=True, index=True, index_label=None, mode=’w’, encoding=None)

to_csv方法的常用参数基本一致,区别之处在于没有sep参数,增加了一个sheetnames参数用来指定存储的Excel sheet的名称,默认为sheet1。

2.3数据库数据

2.3.1数据库数据存储

pandas提供了读取与存储关系型数据库数据的函数与方法;除了pandas库外,还需要使用SQLAlchemy库建立对应的数据库连接;SQLAlchemy配合相应数据库的Python连接工具(例如MySQL数据库需要安装mysqlclient或者pymysql库),使用create_engine函数,建立一个数据库连接。
在这里插入图片描述

2.3.2数据库数据的读写

在这里插入图片描述
在这里插入图片描述

3、两种数据结构

3.1Series对象

在这里插入图片描述

3.2DataFrame数组对象

在这里插入图片描述
在这里插入图片描述

4、数据预处理

4.1数据的查找

在这里插入图片描述

4.2数据删除

在这里插入图片描述
在这里插入图片描述

4.3数据添加

在这里插入图片描述

4.4数据修改

在这里插入图片描述

4.5 数据合并

在这里插入图片描述

5、数据清洗

5.1重复值的检测与处理

在这里插入图片描述

5.2缺失值的检测

在这里插入图片描述

5.3缺失值的处理

5.3.1删除法处理缺失值

在这里插入图片描述

5.3.2替换法处理缺失值

在这里插入图片描述

5.4数据转换

5.4.1哑变量处理

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值