数据分析工具pandas

最新推荐文章于 2024-03-07 06:30:00 发布

阿毛在battle

最新推荐文章于 2024-03-07 06:30:00 发布

阅读量228

点赞数

分类专栏： 00.以前的文章文章标签： python 数据库数据分析

本文链接：https://blog.csdn.net/maohuiwencom/article/details/120723761

版权

00.以前的文章专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文介绍了Python数据分析库Pandas的基础知识，包括数据读写、数据库操作、核心数据结构Series和DataFrame。重点讲述了数据预处理的各个环节，如查找、删除、添加、修改数据，以及数据清洗中的重复值和缺失值处理。同时，讨论了如何使用Pandas进行数据转换，特别是哑变量处理。

摘要由CSDN通过智能技术生成

1、pandas概述

1.2概述

Pandas = Python Data Analysis Library；基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建；一个强大的Python数据分析的工具包；提供了大量能使我们快速便捷地处理数据的函数和方法

1.2数据处理流程

数据的读写
数据预处理（数据清洗）
数据分析
数据可视化

2、数据读写

2.1概述

Pandas支持的数据源有：数据库、excel、文本文件、其他。

2.2数据的读写

①.读取泰坦尼克号数据集(下载连接：titanic3.xls)

import pandas as pd
data=pd.read_excel("titanic3.xls",sheet_name="titanic3")
print(data.head())#显示前5条数据

②.读取北京PM2.5的csv数据集(下载连接：BeijingPM2.5.csv)

import pandas as pd
pm25 = pd.read_csv("BeijingPM2.5.csv",sep=",",encoding="utf-8")
print(pm25.tail())#显示最后5条数据

③.read_csv和read_table常用参数及说明

④.写入文件to_csv
在这里插入图片描述
⑤.写入到to_excel
将文件存储为Excel文件，可以使用to_excel方法。其语法格式如下。
DataFrame.to_excel(excel_writer=None, sheetname=None’, na_rep=”, header=True, index=True, index_label=None, mode=’w’, encoding=None)

to_csv方法的常用参数基本一致，区别之处在于没有sep参数，增加了一个sheetnames参数用来指定存储的Excel sheet的名称，默认为sheet1。

2.3数据库数据

2.3.1数据库数据存储

pandas提供了读取与存储关系型数据库数据的函数与方法;除了pandas库外，还需要使用SQLAlchemy库建立对应的数据库连接;SQLAlchemy配合相应数据库的Python连接工具（例如MySQL数据库需要安装mysqlclient或者pymysql库），使用create_engine函数，建立一个数据库连接。
在这里插入图片描述