遇到问题:
资料调研过程中遇到js动态生成页面(在检查中可以看到需要爬取的数据,但是查看网页源代码中都是js动态生成,跟检查中的代码不一致),通过xpath在html中获取不到需要的数据,真正的数据在
![在这里插入图片描述](https://img-blog.csdnimg.cn/1828817caf214a079424c23508ba25a8.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5bCP6LSp5LiO55m95pel5qKm,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)
所需要的数据为script中的var indData,数据类型为包含有许多dict的list
解决办法:
可以通过正则在script标签中截取数据,然后转化为json格式的数据。
代码如下:
#此处模拟获取到的html的text
response_html_str = """
<!DOCTYPE html>
<html>
<head>
</head>
<body>
<script