数据分析中我们进行数据清洗,常用的工具为pandas库,本文为个人整理的pandas常用函数,希望对您学习pandas有帮助。
一、生成数据表
导入应用模块:
import pandas as pd
Import numpy as np #numpy 通常搭配使用
(一)创建数据表
①df=pd.DataFrame() #创建多维列表
②df=pd.Series() #创建单行或单列数组
(二)读取数据表
① excel:df=pd.read_excel('文件路径+文件名.xlsx') #编码错误则在文件路径前加r防转译(注意考虑:无表头的情况,默认第一行,否则设置表头)
②CSV:df=pd.read_csv('文件路径+文件名.csv') #同上
③sql: import pymysql
连接对象 = pymysql.connect(host = 'localhost',user = 'root',password = '1234',database = 'test',charset = 'utf8')
读取文件 = pd.read_sql("select * from 1班",con=连接对象)
二、数据表检查
(一)列表基本信息查看
①df.shape #查看列表行列数
②df.info() #查看列表整体信息,包括数据维度、数据格式、所占空间
③df.dtypes #查看各列数据格式
(二)列表数值查看
①df.isnull() #查看空值(np.any(df.isnuul())列表是否含有空值
②df['A'].unique() #查看唯一值
③df.values #查看列表数值
④df.col