导入 Requests 模块:
import requests
然后,尝试获取某个网页。本例子中,我们来获取 Github 的公共时间线:
r = requests.get(‘https://api.github.com/events’)
4、requests常用调用(get、post)
-
GET 变量接受所有以 get 方式发送的请求,及浏览器地址栏中的 ?之后的内容。
-
POST 变量接受所有以 post 方式发送的请求,例如,一个 form 以 method=post 提交
-
REQUEST 支持两种方式发送过来的请求,即 post 和 get 它都可以接受,显示不显示要看传递方法,get 会显示在 url 中(有字符数限制),post 不会在 url 中显示,可以传递任意多的数据(只要服务器支持)。
5、requests返回参数
-
r.status_code HTTP请求的返回状态,200表示连接成功,404表示失败
-
r.text HTTP响应内容的字符串形式,即url对应的页面内容
-
r.encoding 从HTTP header中猜测的响应内容编码方式(
-
r.apparent_encoding 从内容中分析出的响应内容编码方式(备选编码方式)
-
r.content HTTP响应内容的二进制形式
🕷 二、蜘蛛的背景知识
1、蜘蛛的应用场景
玩python的小伙伴,相信都听过蜘蛛🕷吧,他有以下10个方面的妙用,本文中,西红柿🍅将带领大家玩一下。
| 应用场景 | 用途解释 |
| — | — |
| 品牌保护 | 通过监控网络上的商标来保护品牌。 |
| 竞争对手情报 | 在不被屏蔽的情况下,抓取竞争对手公开数据信息, |
| 广告验证 | 确保广告在任何地点任何场景被正确的展示 |
| 抓取和索引 | 一个站点可能会将抓取限制为每分钟几个请求,但它们有数千万个页面。 |
| 网站测试 | 准确的测试始于设置正确的参数和正确的环境。 |
| 邮件保护 | 保护敏感数据通信,利用代理服务器应对网络攻击。 |
| 股市数据 | 大规模获取最新的股市信息。 |
| 搜索引擎优化监控 | 使用我们的实时爬虫,监控您的SEO实时情况。 |
| 市场调查 | 从任何位置获取准确的信息,例如可用性和价格。 |
| 旅游聚合 | 使用爬虫获取正确的机票价格和酒店价格。 |
2、动态ip的好
为什么要使用动态住宅IP?
真正的住宅IP地址,这意味着在您请求访问时被阻止的可能性较小并且成功率更高。
-
无限并发
-
IP可用率>98%
-
API调用频率:1秒
-
HTTP、HTTPS和SOCKS5 协议
三、代理ip
我使用的是代理ip网站,可以白嫖50M流量:
http://www.ipidea.net/?utm-source=csdn_bcxhx&utm-keyword=?csdn_bcxhx
1、生成代理api
到此,你拿到了代理ip的api链