pandas 基础功能
——创建DataFrame和操作DataFrame属性
1.读取数据到DataFrame
1)从文件读取数据
函数:
read_csv(“fileaddr”) 从csv文件读取数据包含列
read_excel(“fileaddr”) 从excel文件读取数据 (需要第三方库openxl)
wexcel=writer_excel(“fileaddr”) 从同一个excel操作时,相当于创建一个指针
wexcel.save()
wexcel.close()
2)从数据库读取数据
import pandas as pd
import MySQLdb
mysql_cn= MySQLdb.connect(host=‘localhost’, port=3306,user=‘myusername’, passwd=‘mypassword’, db=‘mydb’)
df = pd.read_sql(‘select * from test;’, con=mysql_cn)
mysql_cn.close()
2.创建数据到dataframe
1)通过获取data数据创建
dataframe(data,columns = [ ],index = [ ])
#data获取路径读表获取,读文件获取,行列索引为空,默认是序号
2)直接创建
df1=pd.DataFrame(np.random.randn(6,6),index=list(‘ABCDEF’),columns=list(‘ABCDEF’))
df2=pd.DataFrame([[1,2,3,4],[2,3,4,5],[3,4,5,6],[4,5,6,7]],index=list(‘ABCD’),columns=list(‘ABCD’))
3)通过字典
dic1={‘name’:[‘桃子’,‘刘’,‘佳’,‘柱’],‘age’:[17,20,5,40],‘gender’:[‘男’,‘女’,‘女’,‘男’]}
df3=pd.DataFrame(dic1)
3.查看和修改dataframe的属性
df.shape #行数、列数
df.dtype #列数据类型
df.ndim #数据维度
df.index #行索引
df.columns #列索引
df.values #对象值,二维ndarray数组
df.info() #读取列表的基本信息
df.describe() #快速综合统计结果: 计数、均值、标准差、最大值、四分位数、最小值等
df.dtype() #显示df数据表的列属性
df[列名A].dtype() #显示df数据表的列A的属性
df[列名A].astype() #设置df数据表的列A的属性