目录
一、简介
二、爬取效果展示
三、爬取网页及内容
四、代码展示
五、感想
一、简介
首先呢,本人大一刚结束。这个爬虫是学校科研实验室的考核题,并且本人也完成,成功通过了考核进入实验室。现在分享一下学习成果。此爬虫爬取的是该平台最新30天的全部迁出迁入数据。
二、爬取效果展示
爬取的数据太多,每一个csv文件都保存到了相应的目录中了
实验室考核要求是保存到csv文件,因此就这样子的了
建立有多级目录
三、爬取网页及内容
爬取网页:https://qianxi.baidu.com/
爬取的数据是各个省市的迁入迁出比例,包括城市级别和省份级别,还有迁入迁出指数,时间范围是过去的30天
lastdate的url是获取最新的日期,因为这是没有当天的数据的,而且有时更新慢,存在不确定因素
获取迁入迁出比例使用这个url,城市级别就是city,省份级别就是province,城市级别迁徙和省份级别迁徙同理。move_in就是迁入,move_out就是迁出
这个是获取迁入迁出指数的url