从xlrd到csv,提取中国所有大学名称

最近一直在做一个web项目,后端使用的是Flask框架,然后需要用到中国所有大学的名称和代号,本来想使用爬虫来获取,但在百度的时候发现了教育部公布出来的中国所有大学名单,这也就不需费劲爬了。
2017全国高等学校名单:
http://www.moe.edu.cn/srcsite/A03/moe_634/201706/t20170614_306900.html

把名单下载下来,一看是这样的:
Excel样式
其实我只需要红线框里的内容,但Excel玩的还不如Python呢,所以决定用Python把这些内容提取出来。

  • 步骤

1 使用xlrd读取Excel文件

import xlrd,csv
data = xlrd.open_workbook('W020170616379651135432.xls') #打开下载下来的xls文件

2 提取出需要的内容

table = data.sheets()[0] #table是第一张工作簿
school_names = table.col_values(1) #大学名称列
school_codes = table.col_values(2) #大学标识号列
school_info = []
for i in range(table.nrows):
    if school_names[i] == '': #部分行被合并了单元格,会显示为空
        continue
    else:
        school_info.append([school_names[i],school_codes[i]])
len(school_info) 
#第一行是标题,后面的2631行就是我们需要的信息了。
#这和教育部公布的数字无误,可以在刚刚的链接里看到的。
2632

3 使用把信息写入csv

with open('university_info.csv','w') as file:     
    newWriter=csv.writer(file)   
    newWriter.writerows(school_info) 
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值