python爬取script标签_Selenium+BeautifulSoup+json获取Script标签内的json数据

最新推荐文章于 2024-03-15 18:39:28 发布

听风的修罗

最新推荐文章于 2024-03-15 18:39:28 发布

阅读量2.6k

点赞数 1

本文链接：https://blog.csdn.net/weixin_42508785/article/details/112960174

版权

python爬取script标签

Selenium爬虫遇到数据是以 JSON 字符串的形式包裹在 Script 标签中，

假设Script标签下代码如下：

{

"user": {

"isLogin": true,

"userInfo": {

"id": 123456,

"nickname": "LiMing",

"intro": "人生苦短，我用python"

}

此时drive.find_elements_by_xpath('//*[@id="DATA_INFO"] 只能定位到元素，但是无法通过.text方法，获取Script标签下的json数据

from bs4 import BeautifulSoup as bs

import json as js

#selenium获取当前页面源码

html = drive.page_source

#BeautifulSoup转换页面源码

bs=BeautifulSoup(html,'lxml')

#获取Script标签下的完整json数据，并通过json加载成字典格式

js_test=js.loads(bs.find("script",{"id":"DATA_INFO"}).get_text())

#获取Script标签下的nickname 值

js_tes

到此这篇关于Selenium+BeautifulSoup+json获取Script标签内的json数据的文章就介绍到这了,更多相关Selenium+BeautifulSoup获取json内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

听风的修罗

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
python爬取script标签_Selenium+BeautifulSoup+json获取Script标签内的json数据

Selenium爬虫遇到数据是以 JSON 字符串的形式包裹在 Script 标签中，假设Script标签下代码如下：{"user": {"isLogin": true,"userInfo": {"id": 123456,"nickname": "LiMing","intro": "人生苦短，我用python"}}}此时drive.find_elements_by_xpath('//*[@id=...
复制链接

扫一扫

Selenium+BeautifulSoup+json获取Script标签内的json数据

01-19

Selenium爬虫遇到数据是以 JSON 字符串的形式包裹在 Script 标签中，假设Script标签下代码如下： [removed] { user: { isLogin: true, userInfo: { id: 123456, nickname: LiMing, intro: 人生苦短，我用python } } } [removed] 此时drive.find_elements_by_xpath(‘

BeautifulSoup 获取 Script 标签内的 json 数据

happyJared

10-31

1万+

有时候，我们可能会遇到数据是以 JSON 字符串的形式包裹在 Script 标签中，此时使用 BeautifulSoup 仍然可以很方便的提取。假设有以下这段页面结构： <script type="application/ld+json" id="DATA_INFO"> { "user": { "isLogin": true, ...

参与评论您还未登录，请先登录后发表或查看评论

selenium 的 WebDriver 获取 script 标签中的 json 内容

我的博客

06-14

1103

WebDriver 有一个 executeScript 方法

python爬取js script中的变量_BeautifulSoup抓取js变量

weixin_39841136的博客

12-05

4443

页面代码：< div class="myplayer" >< div class="m1938" >< script type="text/javascript" >var player_data={"flag":"play","encrypt":0,"trysee":0,"points":0,"link":"\/index.php\/vod\/play\/id...

【script】python 使用json模块实现字符串与字典的相互转换

qq_34965596的博客

04-16

239

使用 json 模块字符串转字典 import json s = '{"name": "Johel Liang", "Sex": "Man"}' d = json.loads(s) print(d, ',', d['name']) # {'name': 'Johel Liang', 'Sex': 'Man'} , Johel Liang 字典转字符串 import json d = {'name': 'Johel Liang', 'Sex': 'Man'} s = json.dumps(d) print

python+selenium+beautifulSoup4，以json格式保存结果，效率低下的玩泥巴爬虫工具.zip

02-03

探索Python爬虫工具：为数据挖掘与数据分析提供强大支持在数据驱动的今天，获取并处理数据是每个研究人员、数据分析师和企业的重要任务。为此，我们汇集了一系列Python爬虫工具，旨在帮助您更高效地获取、处理和...

python selenium 爬取js加载的内容为空_Selenium + BeautifulSoup爬虫入门，对于JS加载的网页数据无法读取的解决办法...

weixin_39644952的博客

12-10

1652

问题来源爬虫写完并不是一劳永逸的，因为原站的代码迭代，我们上次文章写的代码就变成了a pile of shit????。生活不如意，十有八九，这并不是阻碍我们学习的绊脚石。我们出发点是学习，为了使这次对的代码具有一定的Robust(健壮性)，同样为了学习新的技术。这次采用Selenium的方式来编写爬虫的代码，或许情况会有所好转/(ㄒoㄒ)/~~。什么时候用Requests?通常我们在对网页进行抓包的时...

Python使用Selenium+BeautifulSoup爬取淘宝搜索页

12-23

使用Selenium驱动chrome页面，获得淘宝信息并用BeautifulSoup分析得到结果。使用Selenium时注意页面的加载判断，以及加载超时的异常处理。 import json import re from bs4 import BeautifulSoup from selenium ...

python爬取网页json数据_python爬取json数据库

weixin_39621794的博客

12-22

3991

手把手教你使用Python抓取QQ音乐数据(第一弹)【一、项目目标】获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。由浅入深，层层递进，非常适合刚入门的同学练手。【二、需要的库】主要涉及的库有：requests、json、openpyxl【三、项目实现】1.了解 QQ 音乐网站的 robots 协议只禁止...文章python进阶者2020-04-25968浏览量数据挖掘敲...

Python爬虫入门 json 文件的序列化

m0_59580208的博客

10-30

253

文件的序列化和反序列化（pycharm）序列化就是将Python中的对象即（列表（list）元组（）字典（dict））转化成字符串，将其保存到文件中。（PS:因为列表等不能直接保存会报错）㈠序列化的2种方式 ❶dumps() #（1）创建一个文件 fp = open('test.txt','w') #（2）定义一个列表 name_list = ['BJT','LH'] #导人json模块珂该文件中 import json # 将python对象变成json字符串 #我们在使用scrap

[python] BeautifulSoup处理script标签

Moke

10-31

6328

import BeautifulSoup soup = BeautifulSoup.BeautifulSoup(html) 利用这个包先把html里script，style给清理了： [script.extract() for script in soup.findAll(‘script’)] [style.extract() for style in soup.findAll(‘style’)]...

Beautifulsoup script var解析

RobbenEmi的专栏

05-31

2572

大致有一段html如下 <script> var a= 10 var info = {'a':10,'b':20} </script> 解析方法如下，注意：script.text打印处理是空字符串，这里改用了pretty()获取字符串 from bs4 import BeautifulSoup as bs session = requests.Session() res = session.get(url, timeout=10) soup = bs(res.text, '

python selenium加速_python – 如何让selenium Scripts更快？

weixin_32205867的博客

02-09

745

我使用python Selenium和Scrapy来抓取一个网站.但是我的剧本很慢,Crawled 1 pages (at 1 pages/min)我使用CSS SELECTOR而不是XPATH来优化时间.我改变了中间件'tutorial.middlewares.MyCustomDownloaderMiddleware': 543,是Selenium太慢还是我应该在Setting中改变一些东西？我...

Python爬虫从基础到入门：script标签中的数据