爬虫(初级)

crawler基本原理:Request(请求):每一个展示在用户面前的网页都必须经过这一步,也就是向服务其发送请求;

                              Response(响应):服务器在接收到用户的请求后,会验证请求的有效性,然后向用户(客户端)发送响应的内                                                               容,客户端接收服务器响应的内容,将内容展示出来,就是我们所熟悉的网页请求。

 

网页请求的方式:GET、POST

                             POST请求数据必构建请求头才可以!!!

第一步:打开一个网页,比如中国旅游网首页(http://www.cntour.cn/),按快捷键(Ctrl+U)打开源码页面,如下图所示:

第二步:使用GET方式抓取数据

第二步(other):使用POST方式抓取数据

 

第三步:(继第二步(other)后):构建请求头:

 

注意:这个网站有反爬机制,如果出现了'errorCode:50',说明触发了反爬机制。此处可以把url网址里面的_o删掉!!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值