萌新爬虫瑟瑟发抖1

爬取真实网站:TripAdvisor

境外旅游网

1.了解Request 和 Response原理

如何控制通信数据

当Web容器收到一个Http请求时,通信数据由Web容器赋值封装和提供

这些信息被解释成两个对象,请求数据对应的HttpServletRequest和响应对应的HttpServletResponse类型对象


HttpServletRequest对象代表客户端的请求,客户端通过HTTP协议访问服务器时,请求中所有消息都封装在这个

对象中,通过这个对象的相关方法可以获取请求数据

作用:-读取和写入HTTP请求数据

-取得和设置Cookies

-去的路径信息

-标识HTTP会话

-实现请求转发


HttpServletResponse对象代表提供给客户端的响应,封装了HTTP的响应数据。通过这个对象可设置

状态行、消息头、实体内容。

作用:

-设置对客户端的输出内容

-设置响应的状态吗

-设置浏览器解码方式

-设置Cookies

-实现重定向


2.明白Request库中的Get方法怎么用
GET /page_one.html HTTP/1.1
Host:www.xxx.com

推荐两位大佬:
http://blog.csdn.net/lihao21/article/details/51857385
https://www.cnblogs.com/honglingjin/p/6508445.html

3.定位元素位置(找唯一特征)
例:imgs = soup.select('img[width="160"]')

4.使用headers,假装人类(Orz)

headers = {

    'User-Agent':'',

   'Cookie':‘’

}


5.可连续爬取多页内容


6.利用手机页面进行反反爬取(mdzz)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值