Python入门(四)动态网页分析及抓取

什么是动态网页?动态网页,就是网页中包含通过异步ajax加载出来的内容!
我们在打开某个网页时,点击右键“查看网页源代码”,会发现有一部分网页上显示的内容,源代码里面没有,而这部分就是通过ajax异步加载出来的,这就是动态网页!

就拿csdn博客来举例:Python入门(一)环境搭建

点开这篇文章,下方有一条评论:

在这里插入图片描述
按F12检查元素:
在这里插入图片描述
然后选中这条评论内容:
在这里插入图片描述
此时,就可以确定评论区域所在位置:<div class="comment-list-box" >...</div>

其实,这也就是所谓的网页分析,通过检查元素,确定你想提取的内容的区域位置,后面就可以通过标签id,name,class或其它属性提取内容!

继续往下看:
在这里插入图片描述
这里面包含了一个列表,而那条评论就在其中,此时我们可以在网页中,右键查看网页源代码,然后Ctrl+F,输入“comment-list-box”找到这部分:
在这里插入图片描述
我们会发现,源代码里什么也没有!到这里,是不是就明白了呢?

而如果我们要提取这部分动态内容,仅通过上一篇的方法是无法办到的,除非能分析出来加载动态网页的url,那如何才能简单高效的抓取动态网页内容呢?这里就需要用到动态网页抓取神器:Selenium

Selenium实则是一个web自动化测试工具,可以模拟用户滑动,点击,打开,验证等等一系列网页操作行为,就像一个真实用户在操作一样!这样就可以使用浏览器渲染方法将爬取动态网页,变成爬取静态网页!

安装Selenium:pip install selenium

安装成功后,简单测试:

from selenium import webdriver

# 用selenium打开网页
driver = webdriver.Chrome()
driver.get("https://www.baidu.com")

报错:

WebDriverException( selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home

这其实是缺少了谷歌浏览器驱动:chromedriver,下载后放在某个盘符下并记录位置,修改代码重新执行:

driver = webdriver.Chrome(executable_path=r"C:\chromedriver.exe")
driver.get("https://www.baidu.com")

笔者这里使用的是FireFox浏览器,效果是一样的,当然,你要下载火狐浏览器驱动:geckodriver

driver = webdriver.Firefox(executable_path=r"C:\geckodriver.exe")
driver.get("https://www.baidu.com")

在这里插入图片描述
成功打开后,会显示浏览器已被控制!

我们可以在PyCharm中,查看webdriver所提供的方法:
在这里插入图片描述
当所提取内容嵌套在frame中时,我们可以driver.switch_to.frame定位,简单的,我们就可以直接用
driver.find_element_by_css_selector、find_element_by_tag_name等等提取内容,方法中带复数s的提取的是列表,不带s的提取的则是单个数据,很好理解,详细使用方法,可以查看官方文档!

仍以csdn博客为例:Python入门(一)环境搭建,爬取这篇文章的评论,上面我们已经分析到评论所在区域:<div class="comment-list-box" >...</div>
在这里插入图片描述
那么我们就可以直接通过find_element_by_css_selector获取该div下的内容:

from selenium import webdriver

driver = webdriver.Firefox(executable_path=r"C:\geckodriver.exe")
driver.get("https://baiyuliang.blog.csdn.net/article/details/120473414")

comment_list_box = driver.find_element_by_css_selector('div.comment-list-box')
comment_list = comment_list_box.find_element_by_class_name('comment-list')
comment_line_box = comment_list.find_elements_by_class_name('comment-line-box')
for comment in comment_line_box:
    span_text = comment.find_element_by_class_name('new-comment').text
    print(span_text)

结果:
在这里插入图片描述
注意find_element_by_css_selector和find_element_by_class_name的用法区别!

  • 4
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
动态网页是指网页中包含通过异步ajax加载出来的内容。当我们打开某个网页时,部分内容是通过ajax异步加载的,这部分内容在网页源代码中是看不到的。要抓取动态网页的内容,可以使用动态网页抓取工具Selenium。Selenium是一种用于自动化测试的工具,可以模拟用户的操作,包括点击、填写表单等。通过使用Selenium,我们可以模拟浏览器的行为,加载动态网页抓取其中的内容。在Python中,可以使用Selenium库来进行动态网页抓取。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [Python入门动态网页分析抓取](https://blog.csdn.net/baiyuliang2013/article/details/120481815)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [Python轻松实现动态网页爬虫(附详细源码)!](https://blog.csdn.net/weixin_43881394/article/details/106281532)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

白玉梁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值