爬取真实网站:TripAdvisor
境外旅游网
1.了解Request 和 Response原理
如何控制通信数据
当Web容器收到一个Http请求时,通信数据由Web容器赋值封装和提供
这些信息被解释成两个对象,请求数据对应的HttpServletRequest和响应对应的HttpServletResponse类型对象
HttpServletRequest对象代表客户端的请求,客户端通过HTTP协议访问服务器时,请求中所有消息都封装在这个
对象中,通过这个对象的相关方法可以获取请求数据
作用:-读取和写入HTTP请求数据
-取得和设置Cookies
-去的路径信息
-标识HTTP会话
-实现请求转发
HttpServletResponse对象代表提供给客户端的响应,封装了HTTP的响应数据。通过这个对象可设置
状态行、消息头、实体内容。
作用:
-设置对客户端的输出内容
-设置响应的状态吗
-设置浏览器解码方式
-设置Cookies
-实现重定向
2.明白Request库中的Get方法怎么用
GET /page_one.html HTTP/1.1
Host:www.xxx.com
推荐两位大佬:
http://blog.csdn.net/lihao21/article/details/51857385
https://www.cnblogs.com/honglingjin/p/6508445.html
3.定位元素位置(找唯一特征)
例:imgs = soup.select('img[width="160"]')
4.使用headers,假装人类(Orz)
headers = {
'User-Agent':'',
'Cookie':‘’
}
5.可连续爬取多页内容
6.利用手机页面进行反反爬取(mdzz)