python第二次采集数据小记

当网页数据由JS动态生成导致查看源代码找不到时,可以利用Python的Selenium库模拟浏览器进行抓取。首先安装Selenium,然后配置Chrome浏览器驱动,将驱动放到浏览器安装目录下。在代码中,通过driver.page_source获取页面源代码,可能需要使用time.sleep()确保页面完全加载。此外,还可以选择使用PhantomJS作为无头浏览器进行数据采集。
摘要由CSDN通过智能技术生成

有些网页右键查看网页源代码,里面没有要查找的数据,这是为什么呢?答案是:页面是由JS动态生成出来的。

但是在审查元素中Elements中是有的。

解决方案是 python 有一个第三方库 Selenium 可以模拟浏览器

第一步 安装 Selenium

在 cmd 中 打开python的Scripts目录 。输入python 回车

输入 : pip install selenium

安装最新版Selenium

 

第二步 安装浏览器驱动(本人使用的Chrome)

网上找到与浏览器对应版本的驱动后(谷歌为 chromedriver ),下载解压 放到浏览器的安装目录下 (chrome://version  命令查看路径)

 

第三步  代码部分

 

chromedriver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"	#驱动路径

driver = webdriver.Chrome(chromedriver)		#启动浏览器

driver.get("url")		#打开网址	#驱动路径

driver = webdriver.Chrome(chromedriver)		#启动浏览器

driver.get("url")		#打开网址

 

 

 

driver.page_source   #加载完成后返回网页源代码,但是JS动态生成的页面。webdriver并不知道何时加载完毕 所以需要用到 time.sleep() 函数延时

使用time函数 需要import time 导入

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能-肥鹅

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值