python+selenuim+chrome入门使用爬取QQ群成员页面源代码

最新推荐文章于 2024-05-16 10:07:08 发布

空白__

最新推荐文章于 2024-05-16 10:07:08 发布

阅读量2.8w

点赞数 1

分类专栏： python爬虫

本文链接：https://blog.csdn.net/jnxxhzz/article/details/80510341

版权

python爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

 
定义一个driver对象
对对象的cookies初始化
登录 
   1)点击头像快捷登录
2)使用账号密码登录
动态加载下拉界面
获取整个页面源代码并写入文件
以上就是每个部分的作用以及代码块
整体代码
selenium的十八种定位方式
 

在入了python爬虫的坑之后….继两个月前网易大佬问我你怎么解决异步加载的网页爬虫问题….最近终于学习了一下新知识解决了这个问题….

之前一直是用request库，监听network和js请求来找到想要的加载…当然现在看了一个厉害的东西叫selenuim…果断入坑

selenuim本来是一个测试型的第三方库…但是用在爬虫上它的作用极其强大….其实就是模拟点击或者之类的操作而已…这样可以解决需要找请求包或者是解析js之类的繁琐事情

————————————————————————————————————————————————

当然安装之类的过程就跳过了….需要安装的是selenuim库和网上下载一个对应chrome版本的chromedriver.exe放到python/script/目录下就可以了

1.定义一个driver对象

正常定义的方式和chrome无头定义方式,如果使用注释里的三行定义对象的话，是不会出现图形界面的

driver = webdriver.Chrome()
# opt = webdriver.ChromeOptions()
# opt.set_headless()
# driver = webdriver.Chrome(options=opt)

2.对对象的cookies初始化

跟使用变量一样，虽然不进行初始化也可以，但是进行初始化总归是一个好的代码习惯，在清除cookies后，跳转到目标界面

driver.delete_all_cookies()
driver.get(start_url)

3.登录

爬腾讯的网站最大的问题就是登录…因为不能像入门时的简单的发出登录请求包，获取cookies后再用cookies来访问，因为先不说腾讯的界面每次访问都需要登录，并且减少了cookies的生命周期，当你的浏览器关闭后，再次登录就不能使用之前的cookies了…就算没有这个问题，腾讯的请求包又多内容又多…反正凭我的肉眼是实在懒得去找也不一定找得到具体内容…

所以selenuim的强大就体现在这里，不需要去找请求，直接模拟登录就可以了

QQ的登录有两种方式，一种是在你电脑上本身登录了QQ，使用点击头像快捷登录和正常的输入账号密码登录

当然首先我们先定位到登录的iframe框，减小定位误差,time.sleep的作用不用多说，防止闪电侠出错也可以防止被认为是爬虫

driver.switch_to.frame("login_frame") #进入登录iframe
time.sleep(1);

1)点击头像快捷登录

这个很简单，我们完全可以知道点击的头像位置，然后在F12中找到对应的头像框的位置，然后右键获取这个框的xpath，然后直接使用driver.find_element_by_xpath()定位到这个位置并且.click()模拟点击，就可以做到快捷登录

如果不使用xpath,那么使用常规定位方式也是可以定位到这个位置的
比如使用driver.find_element_by_class(“face”)也是可以定位到这个位置的，如果为了定位准确，那么当然按层级定位自然会更加准确