python利用selenium爬取X蜂窝热门游记

最新推荐文章于 2024-06-28 14:57:50 发布

Great1414

最新推荐文章于 2024-06-28 14:57:50 发布

阅读量1.3k

点赞数

分类专栏： python项目文章标签： selenium 动态加载

本文链接：https://blog.csdn.net/weixin_41512727/article/details/80907719

版权

本文介绍了如何运用selenium来爬取动态加载的X蜂窝网站上的热门游记。作者在项目实践中发现，常规的requests库无法有效抓取AJAX动态内容，因此转向学习selenium。通过selenium模拟浏览器行为，成功获取了目标数据。

摘要由CSDN通过智能技术生成

最近因项目需要，学习了下爬虫。之前都是完成的静态网页的爬去，但大部分网页都是动态加载AJAX，所以学习了selenium。当然也可以通过在network中查找隐藏的网页内容，在利用requests去爬去相关内容。本次主要是为了学习selenium，爬取某蜂窝的热门游记。

from selenium import webdriver
from selenium.webdriver.common.by import By
import re
import time

def load_web(url):
    #打开火狐
    browser = webdriver.Firefox()
    browser.get(url)
    #page = brower.find_element(By.CSS_SELECTOR, 'a.pi')
    time.sleep(3)
    page = 0
    #游记名称及简介
    html_all = []
    content_all = []
    #页码
    while page < 10:
        
        html = browser.find_elements_by_css_selector('#_j_tn_content > div.tn-list > div > div.tn-wrapper > dl > dt > a')
        content = browser.find_elements_by_css_selector('#_j_tn_content > div.tn-list > div > div.tn-wrapper > dl > dd > a')
        html_all.append(html)
        content_all.append(content)
        #翻页
        br

最低0.47元/天解锁文章

Great1414

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
1
评论
python利用selenium爬取X蜂窝热门游记

最近因项目需要，学习了下爬虫。之前都是完成的静态网页的爬去，但大部分网页都是动态加载AJAX，所以学习了selenium。当然也可以通过在network中查找隐藏的网页内容，在利用requests去爬去相关内容。本次主要是为了学习selenium，爬取某蜂窝的热门游记。from selenium import webdriverfrom selenium.webdriver.common.by ...
复制链接

扫一扫