上一篇(一)软件安装我们说到,重装软件后解决了卡了两天的版本不匹配问题。
本篇“初窥门槛”记录我完成版本匹配后,学会获取url,学习谷歌Web Scraper插件并被劝退,成功识别网站“乱码”,逐渐跑通Python代码,完成程序架构设计的全过程。
任务描述
获取2015-2020年通过申请的国家科学自然基金中,E.工程与材料科学部下,E03.有机高分子材料及E05.机械设计与制造,这两子类的全部项目关键信息,并制为excel表。
经过广泛搜索,最终确定网站http://www.izaiwen.cn/
为爬取对象,网站首页如下图所示。
真实URL获取
在网站http://www.izaiwen.cn/
选取相应学科分类和批准年限后,页面跳转但网站地址框中url仍为http://www.izaiwen.cn/
,且每次查询最多显示前200条记录。