基础库-Python常用模块的介绍和使用---pandas

Pandas 是一个强大的 Python 数据分析库,专门用于处理和分析数据。

Pandas 主要用来处理结构化数据。

一、提供两种主要的数据结构:

1.Series

一维数组,可以保存任何数据类型。类似于列表,但是带有标签(索引)。

import pandas as pd
# 从列表创建 Series
s = pd.Series([1, 2, 3, 4],index=["a","b","c","d"])
print(s['a'])
#通过索引来访问元素

2.DataFrame

二维表格结构,类似于excel中的表格或者数据库中的表格。它可以包含不同类型的数据,具有行标签和列标签。

import pandas as pd

# 从字典创建 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})
# 从列表创建 DataFrame
df = pd.DataFrame([
    [1, 4],
    [2, 5],
    [3, 6]
], columns=['A', 'B'])

###效果是一样的

二、主要功能

1.数据清洗和准备

1.处理缺失值

        1.1:df.isnull().sum() 查找缺失值

        1.2:df.dropna() 删除缺失值

        1.3:df.fillna(x)填充缺失值

2.处理重复数据

        2.1:df.duplicated() 检测重复数据

        2.2:df.drop_duplicates() 删除重复行

3.数据转换和标准化

4.处理异常值

5.处理数据的缺失和不一致

6.数据合并和连接

        6.1:合并(merge)

        6.2:连接(concat)

2. 数据的导入和导出

pandas 支持从各种格式导入和导出数据,包括:csv,excel,sql,json等

导入数据导出数据
csvpd.read_csvdf.to_csv
excelpd.read_exceldf.to_excel
sqlpd.read_sqldf.to_sql
jsonpd.read_jsondf.to_json

 3.数据选择和过滤

pandas 提供多种方法来选择和过滤数据:

基于行的选择:df.loc ;df.iloc 

基于列的选择:df[["name1","name2"]]

基于条件的选择等

4.数据可视化

pandas库和matplotlib库合作来进行数据可视化的操作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值