pandas数据处理(一)---常用方法

本文介绍了Pandas中的数据类型DataFrame和Series,详细讲解了如何读取和保存数据,包括read_csv、read_excel等方法。还涵盖了查询数据、处理缺失值NaN、新增数据列以及使用describe、mean等统计方法。对于数据处理初学者,提供了实用的操作指南。
摘要由CSDN通过智能技术生成

pandas数据处理

一、数据类型

pandas包含两种数据类型:series和dataframe。

1、dataframe

二维数据结构,表格形式,多行多列
每一列可以实不同的值类型(数值、字符串、布尔值等)
行索引:index; 列名:columns
df.dtypes:查看每列的数据类型
查询一行或者一列:Series df.loc[index]
查询多行多列:DataFrame df.loc[index:index+n]

df = pd.DataFrame({
   'key': ['K0', 'K1', 'K2', 'K3', 'K4', 'K5'],
                     'A': ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']})

df.index:数据的索引
df.columns:数据的列名
在这里插入图片描述

1、 Series

一维数据结构,每一个元素都带有一个索引,与一维数组的含义相似,其中索引可以为数字或字符串。
DataFrame的一行或者一列就是Series类型

df1 = pd.Series([1.1, 2.2, 3.3],index=['i1', 'i2',  'i3'])

在这里插入图片描述

二、基本操作

1、读入、保存数据

在这里插入图片描述

读取纯文本文件

(1) 读入数据 read_csv
# 以BeiJing PM2.5数据为例
import pandas as pd
file_path = 'pm25_data_2010.1.1-2014.12.31.csv'
data = pd.read_csv(file_path)
print(data.index,data.columns,data.shape)#查看索引 列名 数据形状
print(data)
#输出结果:原数据
No  year  month  day  hour  pm2.5  ...  TEMP    PRES  cbwd     Iws  Is  Ir
1  2010      1    1     0    NaN  ... -11.0  1021.0     0    1.79   0   0
2  2010      1    1     1    NaN  ... -12.0  1020.0     0    4.92   0   0
...   ...    ...  ...   ...    ...  ...   ...     ...   ...     ...  ..  ..
43823  2014  12   31    22    8.0  ...  -4.0  1034.0     0  246.72   0   0
43824  2014  12   31    23   12.0  ...  -3.0  1034.0     0  249.85   0   0
[43824 rows x 12 columns]
(2)读取txt文件

自己指定分隔符sep=“ … … ”和列名names=[… … … ]

data=pd.read_csv(file_path,sep="\t",headr=None,names=['time','a1','a2'])
(3)读取excel文件: read_excel()
data=pd.read_excel(file_path)
(4)读取mySql数据表:read_sql()

该方法有两个参数:
1、sql语句
2、数据库的连接 connection

import pymysql
conn=pymysql.connect(
		host='127.0.0.1',
		user='root',
		password='12345678',
		database='test',
		charset='utf8')
data=pd.read_sql("select * from tableName",con=conn)
(5)保存数据 to_csv()
new_path = 'pm_new_data.csv'
usedData.to_csv(new_path, index=False)
2、查询数据
  • df.loc:根据行、列的标签值查询 — 既能查询,又能覆盖写入,推荐
  • df.iloc:根据行列的数字位置查询
  • df.where方法
  • df.query方法
(1) df.head() :查看前5行
(2) df.tail():查看最后5行
(3) 使用单个label值查询数据
#获得单个值
	df.loc[
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值