python爬虫笔记
记录时间:2021年2月2日
1、代理
目的:破解封ip这种反爬机制
什么是代理:
—代理服务器。
作用:
—突破自身ip访问的限制
—隐藏自身真实ip
代理相关网站:
—快代理
—西祠代理
—www.goubanjia.com
代理ip的类型:
—http:应用到http协议对应的url中
—https:应用到https协议对应的url中
需求1:代理操作
使用代理ip,并获取当前使用的ip
import requests
if __name__ == '__main__':
url = 'http://httpbin.org/ip'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56',
}
html = requests.get(url=url, headers=headers, proxies={'http': 'http://182.122.190.113:9999'})
print(html.text)
代理ip的匿名度:
—透明:服务器知道该次请求使用了代理服务器,也知道请求对应的真实ip
—匿名:知道使用了代理,但不知道真实ip
—高匿:啥也不知道