Pands数据分析
DataFrame
Pandas读xlsx文件(从excel创建DataFrame文件)
安装pandas、openpyxl库。
import pandas as pd
p = pd.read_excel("./Book_Code/xl/course_participants.xlsx")
print(p)
运行结果如下:
Pandas开创xlsx文件(不从excel创建一个DataFrame)
data = [["Mark",55,"Italy",4.5,"Europe"],
["Joh",33,"USA",6.7,"America"],
["TIm",41,"USA",3.9,"America"],
["Jenny",12,"Germany",9.0,"Europe"]]
df = pd.DataFrame(data = data,
columns=['name','age','country','score','continent'],
index=[1001,1000,1002,1003]
)
print(df)
结果如下
df.info()可以获得DataFrame的基本信息
index索引
索引查看 df.index 索引命名 df.index.name=‘xxx’
索引重置(吧索引列变为普通列)df.reset_index() (调用的是DataFrame副本) 索引重新设置
df.reset_index().set_index(‘xxx’) (链式调用,reset_index()返回一个DataFrame)
df.index.name = 'usr_id'
print(df)
print(df.reset_index())
print(df.reset_index().set_index('name'))
更换索引 df.reindex
print(df.reindex([999,1000,1001,1004]))
索引排序:df.sort_values
print(df.sort_values(['continent','age'])) #多个
print(df.sort_values(&#