Pandas学习笔记

最新推荐文章于 2024-07-22 21:21:17 发布

翎羽飘

最新推荐文章于 2024-07-22 21:21:17 发布

阅读量514

点赞数

分类专栏：数据文章标签： python pandas

本文链接：https://blog.csdn.net/u014032819/article/details/80690439

版权

1 篇文章 0 订阅

订阅专栏

1. Pandas作用：一个提供快速、可扩展和展现数据结构的Python库。目标是成为使用Python处理时间和实际数据分析的模块。

有两种数据结构：Series和DataFrame。

1）Series是一种类似于NumPy数组的对象，由一组数据（各种NumPy数据类型）和与之相关的一组数据标签（索引）组成的。

2）DataFrame是一种表格型结构，含有一组有序的列，每一列可以是不同的数据类型。有行索引、列索引。数据以一个或多个二维块存放。

2. 安装方法：

1）通过conda安装

conda install pandas

2）通过pip安装

python3 -m pip install --upgrade pandas

3. 主要特性：

4. 用法(斜体字代表是参数)

import numpy as np
import pandas as pd
需要操作文件时
import os

1）生成数据表（DataFrame）

df = pd.DataFrame(pd.read_csv('name.csv',header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))

创建表
```
df = pd.DataFrame（<data>,<columns>）
```
data是表中的数据，以key-value形式存储，key是列名，value是数据组成的数组。
columns就是列名组成的一个数组。

2）查看数据表信息

3) 数据表清洗

4）数据预处理

数据表合并：df_merge=pd.merge(df,df1,how='<inner>,<left>,<right>,<outer>')
设置索引列：df_merge.set_index('index')
按照特定列的值排序：df_merge.sort_values(by=['value'])
按照索引列排序：df_merge.sort_index()
如果column1的值大于多少，column2显示p1，否则p2: df_merge['column2']=np.where(df_inner['column1']>value, 'p1','p2')
对column1字段的值分为不同列，并创建数据表，索引值为df_merge的索引列column2，column3: pd.DataFrame((x.split('-') for x in df_merge['column1']),index=df_merge.index,columns=['column2','column3']))

5）数据提取

6）数据筛选

与：df.loc[(df['column1']>value1) & (df['column2'] =='value2'),['column1','column2','column3','column4']]
或：df.loc[(df['column1']>value1) | (df['column2'] =='value2'),['column1','column2','column3','column4']]
非：df.loc[(df['column1'] != value1),['column1','column2','column3','column4']]
query：df.query('column1 == ["value1", "value2"]')