目录:导入数据源、数据基本操作、描述性统计、缺失值处理、筛选、替换、排序、关联、聚合、数据透视表
备注:X和Y代表地理位置,month代表月份,day代表星期几,FFMC代表细小可燃物湿度码,DMC代表粗腐殖质湿度码,DC代表干旱码,ISI代表初始蔓延指数,temp代表温度,RH代表相对湿度,wind代表风速,rain代表降雨量,area代表地区。
一、导入数据源
#导入相关库
import pandas as pd
import numpy as np
import os
from pandas import DataFrame,Series
import re
df =pd.read_csv(r'E:\work\daima\python\forestfires.csv') #打开文件
导入数据的方式有很多种,我们这里只介绍其中一种。
二、数据基本处理
1)查看列名和数据类型
print(df.columns) #查看列名
print(df.dtypes) #查看各列数据类型
2)查看指定行列数据
print(df.head(20)) #查看前20行数据
df=df.loc[:,'FFMC':'rain'] #选择FFMC到rain列所有数据
3)删除行或列
df=df.drop(['wind', 'rain', 'area'],axis=1) #删除wind,rain和area三列
df_an=df_an.loc[-(df_an['qudao']=='Total')] #删除qudao列等于'Total'的行
4)移除重复数据
df_new=df.drop_duplicates(['month','day']) #移除month和day列包含重复值得行,保留第一个
df_new=df.drop_duplicates(['month'],take_last=True )#