requests添加代理以及selenium的使用(淘宝绕过登录爬取数据)
requests添加代理
获取代理IP(蘑菇代理) — 会返回一个网址
def get_ip():
response = requests.get('返回的网址')
if(response.text[0] == '{'):
print('IP提取频率过快!10秒后再试试吧!')
return None
return [ip for ip in response.text.split('\n') if ip != '']
ips = get_ip()
proxies = {
'http':ips[0],
'https':ips[1]
}
添加代理
response = requests.get('http://www.gaoimg.com/photo/game/',headers = headers,proxies = proxies)
selenium的使用 - 安装driver
- Google浏览器键入chrome://version/,回车查看浏览器版本
- 得到版本号后进入http://npm.taobao.org/mirrors/chromedriver下载对应的执行文件并将其放至安装python的文件夹下。
- 若没有与版本信息相应的版本的执行文件则下载网页最后的与自己Google版本信息匹配度最高的TXT文件。文件中的版本号就是需要下载的。(Windows只有32位的下载就行)
from selenium.webdriver import Chrome
# 1、创建浏览器对象(若为全局变量,程序结束浏览器不会关闭,局部变量会自动关闭)
driver = Chrome()
# 2、输入网址
driver.get('https://huaban.com/explore/hunsha-1')
运行以上程序若能打开浏览器则安装成功。
selenium的使用
from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
- 创建浏览器对象
driver = Chrome()
- 打开网页
driver.get('https://www.51job.com')
- 获取标签
search = driver.find_element_by_id('kwdselectid')
- 输入框中输入内容
search.send_keys('数据分析')
# 按回车进行搜索
search.send_keys