python+selenium实现cookie登录，并抓取指定类class下的html内容

最新推荐文章于 2023-10-30 14:44:56 发布

爱吃榴莲的橙子

最新推荐文章于 2023-10-30 14:44:56 发布

阅读量2.9k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/u011477914/article/details/107787403

版权

python 专栏收录该内容

7 篇文章 2 订阅

订阅专栏

个人研究学习研究用

1、首先通过链接手动登录，https://www.educity.cn/。获取cookie信息

2、再使用站点cookie登录，跳转到https://uc.educity.cn/tiku/testReport.html?id=8067641，通过F12获取<div class="shitiText lh2">发现规律，所有答案部分都有shitiText

3、然后使用find_elements_by_class_name方法获取所有shitiText 下的内容，写入到html中

4、安装 selenium

pip install selenium

5、完整代码，

#!/usr/bin/python
import time
from selenium import webdriver
i = 0

base_url = 'https://www.educity.cn/login.html'
browser = webdriver.Chrome()
browser.maximize_window()
browser.implicitly_wait(10)
# browser.get(base_url)

# 使用cookie登录
browser.get(base_url)
cookies = {'name': 'cstk', 'value': 'e2e87cfa2d03cb692792a3f94a0bfedc', 'domain': 'educity.cn', 'path': '/', 'httpOnly': False, 'secure': False, }
browser.delete_cookie(cookies['name'])
browser.add_cookie(cookies)
browser.get(base_url)

# 登录后跳转到题目页面 2019年上半年软件设计师考试上午真题（专业解析+参考答案）
'''name = "2019年上半年软件设计师考试上午真题（专业解析+参考答案）.html"
url = "https://uc.educity.cn/tiku/testReport.html?id=8064126"'''

name = "2019年下半年软件设计师考试上午真题（专业解析+参考答案）.html"
url = "https://uc.educity.cn/tiku/testReport.html?id=8067641"

browser.get(url)
time.sleep(2)  # 等待5秒，等待网页加载完成
# 定位答案位置
like = browser.find_elements_by_class_name('shitiText')
# lists = []
bg = open(name, 'w+', encoding='utf-8')
for x in range(0, len(like)):
    # a = like[x].text 获取文本
    # 获取html
    a = like[x].get_attribute('innerHTML')
    # 删除头尾空格
    a = a.strip()
    # lists.append(a)
    bg.write('<h1>'+str(i)+'</h1>'+a)
    i += 1
bg.close()

爱吃榴莲的橙子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python+selenium实现cookie登录，并抓取指定类class下的html内容

个人研究学习研究用1、首先通过链接手动登录，https://www.educity.cn/。获取cookie信息2、再使用站点cookie登录，跳转到https://uc.educity.cn/tiku/testReport.html?id=8067641，通过F12获取<div class="shitiText lh2">发现规律，所有答案部分都有shitiText3、然后使用find_elements_by_class_name方法获取所有shitiText 下的内.
复制链接

扫一扫