爬虫学习笔记(二)
数据爬取:
- 什么是数据爬取
就是根据url来获取它的网页信息,很多时候我们在浏览器里面看到的是各种各样的页面,其实是由浏览器解释才呈现出来的,实质它是一段html代码,加 js、css,最重要的部分是存在于html中的,举个简单地例子:
from urllib.request import urlopen
response = urlopen("http://www.baidu.com")
print(response.read().decode())
这样就得到了百度页面的信息了。
- 常见到的方法
- requset.urlopen(url,data,timeout)
- 第一个参数url即为爬取页面的url,第二个参数data是访问url时要传送的数据,第三个timeout是设置超时时间。
- 第一个参数url是必须要传送的,但是后面两个则不用,data的默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT。
- response.read()
- read()方法就是读取文件里的全部内容,返回bytes类型。
- response.getcode()
- 返回http的响应码,成功返回200,4服务器页面出错,5服务器问题。
- response.geturl()
- 返回实际数据的实际url,防止重定向问题。
- response.info()
- 返回服务器响应的http报头。
- Request对象
其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例,构造时需要传入url,data等等。比如上面的两行代码,我们可以改成(推荐方法):
from urllib.request import urlopen,Request
request = Request("http://www.baidu.com")
response = urlopen(request)
print(response.read().decode())
-
get 请求
大部分被传输到浏览器的html,images,js,css, … 都是通过get方法发出请求的。它是获取数据的主要方法。
get请求的参数都是在url中体现的,一般情况下有中文,这时需要转码,这时我们可使用- urllib.parse.urlencode()
- urllib.parse. quote()
-
post 请求
Request请求对象的里有data参数,它就是用在post里的,我们要传送的数据就是这个参数data,data是一个字典(表示为:{“key”:“value”})。 -
相应状态码
号码 | 含义 |
---|---|
100 | 继续请求者应当继续提出请求。服务器返回此代码表示已收到请求的第一部分,正在等待其余部分。 |
101 | 切换协议请求者已要求服务器切换协议,服务器已确认并准备切换。 |
200 | 服务器已成功处理了请求。通常,这表示服务器提供了请求的网页。 |
201 | 请求成功并且服务器创建了新的资源。 |
202 | 服务器已接受请求,但尚未处理。 |
203 | 服务器已成功处理了请求,但返回的信息可能来自另一来源。 |
204 | 服务器成功处理了请求,但没有返回任何内容。 |
205 | 服务器成功处理了请求,但没有返回 任何内容。 |
206 | 服务器成功处理了部分 GET 请求。 |
300 | 针对请求,服务器可执行多种操作。服务器可根据请求者 (user agent) 选择一项操作,或提供操作列表供请求者选择。 |
301 | 请求的网页已永久移动到新位置。服务器返回此响应(对 GET 或 HEAD 请求的响应)时,会自动将请求者转到新位置。 |
302 | 服务器目前从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。 |
303 | 请求者应当对不同的位置使用单独的 GET 请求来检索响应时,服务器返回此代码。 |
304 | 自从上次请求后,请求的网页未修改过。服务器返回此响应时,不会返回网页内容。 |
305 | 请求者只能使用代理访问请求的网页。如果服务器返回此响应,还表示请求者应使用代理。 |
307 | 服务器目前从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。 |
400 | 服务器不理解请求的语法。 |
401 | 请求要求身份验证。对于需要登录的网页,服务器可能返回此响应。 |
403 | 服务器拒绝请求。 |
404 | 服务器找不到请求的网页。 |
405 | 禁用请求中指定的方法。 |
406 | 无法使用请求的内容特性响应请求的网页。 |
407 | 此状态代码与 401(未授权)类似,但指定请求者应当授权使用代理。 |
408 | 服务器等候请求时发生超时。 |
409 | 服务器在完成请求时发生冲突。服务器必须在响应中包含有关冲突的信息。 |
410 | 如果请求的资源已永久删除,服务器就会返回此响应。 |
411 | 服务器不接受不含有效内容长度标头字段的请求。 |
412 | 服务器未满足请求者在请求中设置的其中一个前提条件。 |
413 | 服务器无法处理请求,因为请求实体过大,超出服务器的处理能力。 |
414 | 请求的 URI(通常为网址)过长,服务器无法处理。 |
415 | 请求的格式不受请求页面的支持。 |
416 | 如果页面无法提供请求的范围,则服务器会返回此状态代码。 |
417 | 服务器未满足"期望"请求标头字段的要求。 |
500 | 服务器遇到错误,无法完成请求。 |
501 | 服务器不具备完成请求的功能。例如,服务器无法识别请求方法时可能会返回此代码。 |
502 | 服务器作为网关或代理,从上游服务器收到无效响应。 |
503 | 服务器目前无法使用(由于超载或停机维护)。通常,这只是暂时状态。 |
504 | 服务器作为网关或代理,但是没有及时从上游服务器收到请求。 |
505 | 服务器不支持请求中所用的 HTTP 协议版本。 |
http响应码来源于:https://www.cnblogs.com/CH-TNT/p/11438438.html
- ajax数据请求
有些网页内容使用ajax加载,而ajax一般返回的是json,直接对ajax地址进行post或get,就可以返回json数据。 - 请求 SSL证书验证
什么是ssl证书(有兴趣可以看)
现在https的网站越来越多,urllib可以为 https请求验证SSL证书,就像web浏览器一样,如果网站的SSL证书是经过CA认证的,则能够正常访问。
如果SSL证书验证不通过,或者操作系统不信任服务器的安全证书,在访问的时候就会警告用户证书不受信任。但是也可以采取对策:
context = ssl._create_unverified_context()#忽略安全认证
response = urllib.request.urlopen(request, context = context)#添加到context参数里