requests爬数据–python
本人对于python用的不是很多,也无很深入的学过,但因为之前工作需要,用到python爬系统数据,自己研究了很久,查了很多资料,本人找到两篇很不错的总结(requests的用法及数据写入Excel),文章最后有链接。我用的是requests模块,简单实用,Requests模块缺陷:不能执行JS 和CSS 代码。
用户获取网络数据的方式:
方式1:浏览器提交请求—>下载网页代码—>解析成页面
方式2:模拟浏览器发送请求(获取网页代码)—>提取有用的数据—>存放于数据库或文件中,爬虫要做的就是方式2。
基本思路:
- 获取页面的url,cookies,headers,观察url的变化规律(用于多页爬取)
- 使用.get发起请求使用.get发起请求
- 服务器相应(正常),会得到回应
- 解析内容(本文返回结果为josn模块,所以解析josn)
- xlwt保存为xls格式
爬虫过程
某滴官方车管系统
这个案例是我18年9月份爬的数据,当时刚入职新公司,数据不全,到处整数据,这个系统也是其中之一,第一次自己尝试爬虫,很多辛酸泪,(主要完全不知道如何下手)当然你也可以一页一页复制,总共507页(5000多条数据),如果一页30s来算(包括网络、copy到文件等),花时