Python爬虫（二）：假装解决js动态网页

最新推荐文章于 2023-07-21 17:01:06 发布

DYuXiu

最新推荐文章于 2023-07-21 17:01:06 发布

阅读量256

点赞数 1

分类专栏： Python 爬虫文章标签： python 爬虫 selenium chromedriver

本文链接：https://blog.csdn.net/qq_40900948/article/details/84372525

版权

本文是Python爬虫系列的第二篇，针对使用JS动态加载内容的网页，作者介绍了如何通过selenium和chromedriver模拟点击行为，获取完整HTML，再利用BeautifulSoup进行解析。虽然该方法效率低下，但对新手来说是一种简单的解决思路。

摘要由CSDN通过智能技术生成

前言

在上一篇博文中, python代码趋向于平铺直叙——或者说代码习惯十分不好, 稍微复杂点的功能都会举步维艰,

对于选择使用js控制加载网页结构的网站, 以urllib为基础的python库来说无法直接解决这个问题.

但是事在人为, 对于笔者这个小白来说还是有~~傻瓜式~~替代解决思路的, 虽然很慢==

前期准备

默认看过Python爬虫（一）：简单小说爬取实例
预装模块: requests, selenium, bs4, os
下载chromedriver

流程分析

bs4+selenium+chromedriver ~~强行爆破~~ 模拟点击行为获取完全加载的html
~~然后用beautifulsoup为所欲为~~

代码实现

# coding=utf-8
# **************************Declaration**************************
# @File name:        Crawler
# @Function:         requests+selenium+chromedriver
# @Author:           Ogiso Kazusa
# @Date: