数据项目学习2-CSDN博客

本文链接：https://blog.csdn.net/simcom2/article/details/129673740

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

file_path1=r"D:\学习\3数据分析案例\城市数据\data\2015年国内主要城市年度数据.csv"
t1=pd.read_csv(file_path1)
file_path2=r"D:\学习\3数据分析案例\城市数据\data\2016年国内主要城市年度数据.csv"
t2=pd.read_csv(file_path2)
file_path3=r"D:\学习\3数据分析案例\城市数据\data\2017年国内主要城市年度数据.csv"
t3=pd.read_csv(file_path3)
# #基本情况查询
# print(t2.describe())
# print(t2.info())
# print(t2.dtypes)
# print(t2["地区"].values)
# print(t2["地区"].unique())
# print(t2.isnull().sum()) #查看每一列的缺失值
# print(t3.notnull().count())

# #取列值
# print(t1["年末总人口"])

# #最大值，最小值
# print(t1.max().head())
# print(t2.min().head())
# print(t2["国内生产总值"].idxmax(),"\n",t2["国内生产总值"].idxmin())
# for (a,b) in t2.describe().iteritems(): #iteritems 返回是每一列的列名和列数据值
#     print(a)
#     print(b)

# #数据抽样
# t4=t2.sample(n=9,replace=False)  #随机抽样，replace 不放回随机抽样
# print(t4)

#apply 函数
# t2["地名"].apply(函数)

# #合并数据
# y1=pd.concat(objs=[t1,t2,t3],axis=0)
# print(y1.info())
#

# #索引问题
# t5=t2.set_index(keys="地区")
# print(t5.index)

#排序问题
t6=t2.sort_values(by='国内生产总值',ascending=False)
print(t6.head(6))
#分组问题
t2.groupby(by=["地区"])