Python爬虫(二):假装解决js动态网页

本文是Python爬虫系列的第二篇,针对使用JS动态加载内容的网页,作者介绍了如何通过selenium和chromedriver模拟点击行为,获取完整HTML,再利用BeautifulSoup进行解析。虽然该方法效率低下,但对新手来说是一种简单的解决思路。
摘要由CSDN通过智能技术生成

前言

  • 在上一篇博文中, python代码趋向于平铺直叙——或者说代码习惯十分不好, 稍微复杂点的功能都会举步维艰,
  • 对于选择使用js控制加载网页结构的网站, 以urllib为基础的python库来说无法直接解决这个问题.
  • 但是事在人为, 对于笔者这个小白来说还是有傻瓜式替代解决思路的, 虽然很慢==

前期准备

流程分析

  • bs4+selenium+chromedriver 强行爆破 模拟点击行为获取完全加载的html
  • 然后用beautifulsoup为所欲为

代码实现

# coding=utf-8
# **************************Declaration**************************
# @File name:        Crawler
# @Function:         requests+selenium+chromedriver
# @Author:           Ogiso Kazusa
# @Date:        
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值