一、数据获取
在国家统计局网中下载第六次人口普通统计表:http://www.stats.gov.cn/tjsj/pcsj/rkpc/6rp/indexch.htm
然后通过pandas将excel数据解析为多级字典
先观察excel数据
可以转化为这样的多级词典:
理清字典关系后代码就简单了
def getDataDict():
#skiprows指跳过的行下标(下标从0开始),=2即从第3行开始,返回类型为dataframe
dataFrame = pandas.read_excel('D:/Py/2010人口普查.xlsx',skiprows=2)
#获取民族列表,民族字符串中有空格,通过map函数清洗数据
#iloc函数中表示解析下标为第0行,第1列之后的,并且步长为3;
#使用map函数后转化为了map类型数据,注意转回list类型
raceList = list(map(lambda s:str(s).replace("\xa0",""),dataFram