import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
file_path1=r"D:\学习\3数据分析案例\城市数据\data\2015年国内主要城市年度数据.csv"
t1=pd.read_csv(file_path1)
file_path2=r"D:\学习\3数据分析案例\城市数据\data\2016年国内主要城市年度数据.csv"
t2=pd.read_csv(file_path2)
file_path3=r"D:\学习\3数据分析案例\城市数据\data\2017年国内主要城市年度数据.csv"
t3=pd.read_csv(file_path3)
# #基本情况查询
# print(t2.describe())
# print(t2.info())
# print(t2.dtypes)
# print(t2["地区"].values)
# print(t2["地区"].unique())
# print(t2.isnull().sum()) #查看每一列的缺失值
# print(t3.notnull().count())
# #取列值
# print(t1["年末总人口"])
# #最大值,最小值
# print(t1.max().head())
# print(t2.min().head())
# print(t2["国内生产总值"].idxmax(),"\n",t2["国内生产总值"].idxmin())
# for (a,b) in t2.describe().iteritems(): #iteritems 返回是每一列的列名和列数据值
# print(a)
# print(b)
# #数据抽样
# t4=t2.sample(n=9,replace=False) #随机抽样,replace 不放回随机抽样
# print(t4)
#apply 函数
# t2["地名"].apply(函数)
# #合并数据
# y1=pd.concat(objs=[t1,t2,t3],axis=0)
# print(y1.info())
#
# #索引问题
# t5=t2.set_index(keys="地区")
# print(t5.index)
#排序问题
t6=t2.sort_values(by='国内生产总值',ascending=False)
print(t6.head(6))
#分组问题
t2.groupby(by=["地区"])