这篇博文参考于《Python 数据处理》
读取Excel文件需要用到xlrd模块,模块下载地址:xlrd下载地址
本博文中Excel文件下载地址:SOWC 2014 Stat Tables_Table 9.xlsx
下面我们使用xlrd模块提取Excel文件中的童工和童婚比例:
"""
这是用来分析童工和童婚数据的脚本。
本脚本中用到的Excel文件可以在以下链接中获取:
https://github.com/jackiekazil/data-wrangling/tree/master/data/chp4
"""
import xlrd
book = xlrd.open_workbook('SOWC 2014 Stat Tables_Table 9.xlsx')
sheet = book.sheet_by_name('Table 9 ')
data = {}
for i in range(14,sheet.nrows):
# 从第14行开始,因为这是国家数据的起点。
row = sheet.row_values(i)
country = row[1]
data[country] = {
'child_labor':{
'total':[row[4],row[5]],
'male':[row[6],row[7]],
'female':[row[8],row[9]],
},
'child_marriage':{
'married_by_15':[row[10],row[11]],
'married_by_18':[row[12],row[13]],
}
}
if country == 'Zimbabwe':
break
# pprint作简单解析前的预览,实际数据分析时可以删除这两行
import pprint
pprint.pprint(data)