Python Requests 丨爬虫基础入门

导入 Requests 模块:

import requests

然后,尝试获取某个网页。本例子中,我们来获取 Github 的公共时间线:

r = requests.get(‘https://api.github.com/events’)

4、requests常用调用(get、post)

  • GET 变量接受所有以 get 方式发送的请求,及浏览器地址栏中的 ?之后的内容。

  • POST 变量接受所有以 post 方式发送的请求,例如,一个 form 以 method=post 提交

  • REQUEST 支持两种方式发送过来的请求,即 post 和 get 它都可以接受,显示不显示要看传递方法,get 会显示在 url 中(有字符数限制),post 不会在 url 中显示,可以传递任意多的数据(只要服务器支持)。

5、requests返回参数

  • r.status_code HTTP请求的返回状态,200表示连接成功,404表示失败

  • r.text HTTP响应内容的字符串形式,即url对应的页面内容

  • r.encoding 从HTTP header中猜测的响应内容编码方式(

  • r.apparent_encoding 从内容中分析出的响应内容编码方式(备选编码方式)

  • r.content HTTP响应内容的二进制形式

🕷 二、蜘蛛的背景知识


1、蜘蛛的应用场景

玩python的小伙伴,相信都听过蜘蛛🕷吧,他有以下10个方面的妙用,本文中,西红柿🍅将带领大家玩一下。

| 应用场景 | 用途解释 |

| — | — |

| 品牌保护 | 通过监控网络上的商标来保护品牌。 |

| 竞争对手情报 | 在不被屏蔽的情况下,抓取竞争对手公开数据信息, |

| 广告验证 | 确保广告在任何地点任何场景被正确的展示 |

| 抓取和索引 | 一个站点可能会将抓取限制为每分钟几个请求,但它们有数千万个页面。 |

| 网站测试 | 准确的测试始于设置正确的参数和正确的环境。 |

| 邮件保护 | 保护敏感数据通信,利用代理服务器应对网络攻击。 |

| 股市数据 | 大规模获取最新的股市信息。 |

| 搜索引擎优化监控 | 使用我们的实时爬虫,监控您的SEO实时情况。 |

| 市场调查 | 从任何位置获取准确的信息,例如可用性和价格。 |

| 旅游聚合 | 使用爬虫获取正确的机票价格和酒店价格。 |

2、动态ip的好

为什么要使用动态住宅IP?

真正的住宅IP地址,这意味着在您请求访问时被阻止的可能性较小并且成功率更高。

  • 无限并发

  • IP可用率>98%

  • API调用频率:1秒

  • HTTP、HTTPS和SOCKS5 协议

三、代理ip


我使用的是代理ip网站,可以白嫖50M流量:

http://www.ipidea.net/?utm-source=csdn_bcxhx&utm-keyword=?csdn_bcxhx

1、生成代理api

到此,你拿到了代理ip

  • 12
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值