PYTHON爬虫学习(六) -- selenium模块

最新推荐文章于 2022-08-04 20:38:30 发布

DIAJEY

最新推荐文章于 2022-08-04 20:38:30 发布

阅读量194

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/DIAJEY/article/details/110844902

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文详细介绍了Selenium模块在爬虫中的应用，包括获取动态数据、模拟登录、处理iframe以及使用动作链。通过实例展示了如何使用Selenium进行网页自动化，如滚动页面、点击元素、执行JS等。此外，还涉及了无头浏览器的配置，用于规避反爬策略。最后，提供了一个12306登录的模拟案例，包括识别点击型验证码的处理流程。

摘要由CSDN通过智能技术生成

Selenium模块

selenium模块和爬虫之间有什么关联？
	- 便捷的获取网站中动态加载的数据
	- 便捷实现模拟登陆
什么是selenium模块？
	- 基于浏览器自动化的一个模块

selenium使用流程:
	- 环境安装: pip install selenium
	- 下载一个浏览器的驱动程序(谷歌)：
		- 下载路径：http://chromedriver.storage.googleapis.com/index.html
		- 驱动程序和浏览器版本的对应关系：http://blog.csdn.net/huilan_same/article/details/51896672
	- 实例化一个浏览器对象
	- 编写基于浏览器自动化的操作代码
		- 发起请求：get(url)
		- 标签定位：find系列的方法
		- 标签交互：send_key('xxx')
		- 执行js程序：excute_script('jsCode')
		- 前进，后退：back(),forward()
		- 关闭浏览器：quit()

# -*- coding: utf-8 -*-
from selenium import webdriver
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver')

#.get()相当于是让浏览器输入一个网址
bro.get('https://www.taobao.com')

#标签定位
#找到搜索框标签(在一个id为q的div中)
search_input = bro.find_element_by_id('q')
#标签交互(相当于在搜索框中输入要搜索的东西)
search_input.send_keys('Iphone')

#执行一组js代码，让浏览器自动滚动页面
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
#document.body.scrollHeight--滚动屏幕大小的高度
sleep(2)
#点击搜索按钮
btn = bro.find_element_by_css_selector('.btn-search')#根据选择器找
btn.click()#点击

bro.get('https://www.baidu.com')
sleep(2)
#回退
bro.back()
sleep(2)
#前进
bro.forward()

sleep(5)

- selenium处理iframe(嵌套子窗口)
		- 如果定位的标签存在于iframe标签中，则必须使用swith_to.frame(id)
		- 动作链(拖动)：from selenium.webdriver import ActionChains
			- 实例化一个动作链对象：action = ActionChains(bro)
			- click_and_hold(div) : 长按且点击操作
			- move_by_offset(x,y)
			- perform()让动作链立即执行
			- action.release()释放动作链对象

# -*- coding: utf-8 -*-
from time import sleep
from selenium import webdriver
from selenium.webdriver import ActionChains#动作链
bro = webdriver.Chrome(executable_path='./chromedriver')

bro.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

#如果定位的标签是存在于iframe标签之中的必须通过如下操作进行标签定位
bro.swithch_to.frame('iframeResult')#切换到对应iframe标签定位的作用域
div = bro.find_element_by_id('draggable')

#动作链
action = ActionChains(bro)
#点击长按指定的标签(click_and_hold)
action.click_and_hold(div)

for i in range(5):
    #perform()--立即执行动作链操作
    #move_by_offset(x,y):x-水平方向，y-竖直方向
    action.move_by_offset(17,0).perform()
    sleep(0.5)#慢慢拖动
#释放动作链
action.release()

bro.quit()

模拟登陆案例：

# -*- coding: utf-8 -*-

from selenium import webdriver
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver')

bro.get('https://qzone.qq.com/')

#由于刚弹出来的是扫码登陆，所以要点击一下账号密码登录才可以跳转
bro.switch_to_frame('login_frame')

#‘账号密码登录按钮’
a_tag = bro.find_element_by_id("switcher_plogin")
a_tag.click()
sleep(2)
#输入账号密码
userName_tag = bro.find_element_by_id('u')
passName_tag = bro.find_element_by_id('p')

userName_tag.send_keys('154919633')
sleep(2)
passName_tag.send_keys('*******')

#点击登录按钮
btn = bro.find_element_by_id('login_button')
btn.click()
sleep(3)

btn.quit()

谷歌无头浏览器+Selenium反检测

无头浏览器：让谷歌浏览器不可视化(驱动不会弹窗口)

# -*- coding: utf-8 -*-
from selenium import webdriver
from time import sleep
#实现无可视化界面
from selenium.webdriver.chrome.options import Options
#实现规避检测
from selenium.webdriver import  ChromeOptions

#实现无可视化界面的操作
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')

#实现规避检测
option = ChromeOptions()
option.add_experimental_option('excludeSwitches',['enable-auto-automation'])

#如何实现让selenium规避被检测的风险,且无头化
bro = webdriver.Chrome(executable_path='./chromedriver',chrome_options=chrome_options,options=option)

bro.get('https://www.baidu.com')

print(bro.page_source)
sleep(2)
bro.quite()

模拟12306登录案例(点击型验证码)


from selenium import webdriver
from PIL import Image#图片工具类
from time import sleep
from selenium.webdriver import ActionChains#动作链
import requests
from hashlib import md5

class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()


bro = webdriver.Chrome(executable_path='./chromedriver')
bro.get('https://kyfw.12306.cn/otn/login/init')
sleep(1)

'''
    经过观察，网站的验证码是点击图片的，且每次请求都会刷新
    因此不能直接获取src请求图片。
    思路：将整张页面截图下来，在通过标签找到验证码图片位置，分割下来识别
'''

#save_screenshot就是将当前页面进行截图并保存
bro.save_screenshot('aa.png')

#确定验证码图片对应的左上角和右下角坐标，从而确定裁剪区域
#按路径拿到验证码图片
code_img_ele = bro.find_element_by_xpath('//*[@id="loginForm"]/div/ul[2]/li[4]/div/div/div[3]/img')
location = code_img_ele.location #返回验证码图片左上方的坐标 x,y
print('location:',location)
size = code_img_ele.size #返回验证码图片长，宽
#定义一个点，将左上角和右下角的坐标存进去
rangle = (int(location['x']),int(location['y']),int(location['x']+size['width']),int(location['y']+size['height']))
#至此，已经定义好了验证码区域
i = Image.open('./aa.png')
code_img_name = './code.png'
#crop--根据指定区域进行图片裁剪
frame = i.crop(rangle)
frame.save(code_img_name)

chaojiying = Chaojiying_Client('DIAJEY', 'abc1314', '910539')	#用户中心>>软件ID 生成一个替换 96001
im = open('code.png', 'rb').read()													#本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
print(chaojiying.PostPic(im, 9004)['pic_str'])
sleep(3)

#返回了坐标后，创建动作链去点击
#首先先将点获取出来，存到列表中
result = chaojiying.PostPic(im, 9004)['pic_str']
all_list = []
if '|' in result:#如果有|表示返回多个坐标，分割后再存进去
    list_l = result.split('|')
    count_l = len(list_l)
    for i in range(count_l):
        xy_list = []
        x = int(list_l[i].split(',')[0])#以，为分割，左边为x，右边为y
        y = int(list_l[i].split(',')[1])
        xy_list.append(x)
        xy_list.append(y)
        all_list.append(xy_list)
else:
     x = int(result.split(',')[0])#以，为分割，左边为x，右边为y
     y = int(result.split(',')[1])
     xy_list = []
     xy_list.append(x)
     xy_list.append(y)
     all_list.append(xy_list)
#遍历坐标列表，通过动作链对每一个列表元素对应的坐标进行点击操作
for l in all_list:
    x = l[0]
    y = l[1]
    ActionChains(bro).move_to_element_with_offset(code_img_ele,x,y).click().perform()
    #因为x,y是相对于验证码的位置，所以动作链要先移动到验证码区域再开始点击操作
    sleep(0.5)

#验证码识别成功，输入账号密码，然后点击登录
bro.find_element_by_id('username').send_keys('xxxxxx')
sleep(2)
bro.find_element_by_id('password').send_keys('xxxxxx')
sleep(2)
sleep(10)
bro.quit()

DIAJEY

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PYTHON爬虫学习(六) -- selenium模块

Selenium模块selenium模块和爬虫之间有什么关联？ - 便捷的获取网站中动态加载的数据 - 便捷实现模拟登陆什么是selenium模块？ - 基于浏览器自动化的一个模块selenium使用流程: - 环境安装: pip install selenium - 下载一个浏览器的驱动程序(谷歌)： - 下载路径：http://chromedriver.storage.googleapis.com/index.html - 驱动程序和浏览器版本的对应关系：http://blog
复制链接

扫一扫

专栏目录