selenium免登陆抓取数据

该脚本使用selenium库和Chromewebdriver进行网页交互,进入特定iframe抓取评论数据,包括名字、邮箱、评论内容和时间。数据解析利用lxml的etree模块加速处理,之后将信息保存到json文件。同时,脚本通过schedule库实现每天21点自动运行此爬虫任务。
摘要由CSDN通过智能技术生成
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
import json
from lxml import etree
import schedule

def crawlerData(driver):
    web_driver=driver
    # 进入iframe页面中
    driver.switch_to_frame(driver.find_element_by_xpath('//iframe[@title="オンラインストア"]'))
    EXITS = True
    count=1
    while EXITS:
        try:
            print(count)
            tables = web_driver.page_source
            # 使用 lxml解析,提升解析速度
            html = etree.HTML(tables, etree.HTMLParser())
            tables = html.xpath('//ul[@class="Polaris-ResourceList_r589e"]/li')
            for tr in tables:
                data = {}
                data["name"] = (tr.xpath('.//div[@class="ER3pl"]//text()'))[0]
                data["email"] = (tr.xpath('.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值