网络数据爬取(Requests)
该库基于urllib库
七种库:
1.requests.request() 构造一个请求,支撑以下各方法的基础方法
2.requests.get() 获取HTML网页的主要方法,对应于HTTP的GET
3.requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD
4.requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
5.requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
6.requests.patch() 向HTML网页提交PATCH请求的方法,对应于HTTP的PATCH
7.requests.delete() 向HTML网页提交删除请求的方法,对应于HTTP的DELETE
当使用requests模块的get方法后,服务器的响应response对象的status_code是用于表示http响应状态的。
1.requests库中的headers参数可以将一个get请求伪装为一个浏览器来防止服务对爬虫的拒绝访问
2.服务器的响应response对象的content属性是用来获取其对象的二进制内容。
解决方法:
requests库中的data参数多与post方法结合起来使用,用于提交某些数据的请求。
timeout:如果一段时间后没有响应,那么就返回,不用一直等知道响应
Request库的应用: