python 无头浏览器多线程_一个页面中的这两个信息能不用python无头浏览器爬取到吗？...

飞翔的忧郁

于 2021-02-09 12:27:16 发布

阅读量88

点赞数

文章标签： python 无头浏览器多线程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30803191/article/details/113966174

版权

在爬取"http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm"这个页面的时候, 发现"擅长"和"执业经历"这两个信息通过beautifulsoup是取不到的, 我选取这两个信息的代码如下:

soup.select('#full_DoctorSpecialize').get_text(strip=True)

soup.select('#full').get_text(strip=True)

查询页面发现这两个信息好像是通过JS查询的结果, 除了把网页全部正则表达式匹配的方法, 请教各位:

1, 这两个信息能否直接取到?

2, 除了类似"Selenium"这样的工具, 是否还有其他方式能够取到这两个信息?

3, 能否通过分析查询接口的方式解决?

谢谢

可能这个页面，你要抓的这个数据，是页面加载后，使用js渲染出来的。也就是说，这个#full_DoctorSpecialize

里面的数据是ajax，从服务器上拿回来的。具体要如何拿这样的数据，你可以百度下 phantomjs ，你一定会有收获的。

这2个信息可以直接获取，只是信息包含在JS块中BigPipe.onPageletArrive({这个里面}) , 可以通过正则表达式获取。这个里面是一段JSON格式的字符串。匹配之后转换为json还是很容易处理的。想要通过查询接口获取的话，应该是可以的，不过得分析JS代码，这个太麻烦，可以通过抓包工具来抓它的http请求。然后看看是那个请求返回的数据。相比较而言还是写正则匹配比较快。

这个就像楼上说的是js渲染的，内容在js代码里面，可以正则匹配js代码里面的元素，得到你想要的信息

玩蛇网文章，转载请注明出处和文章网址：https://www.iplaypy.com/wenda/wd14046.html

相关文章 Recommend

飞翔的忧郁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 无头浏览器多线程_一个页面中的这两个信息能不用python无头浏览器爬取到吗？...

在爬取"http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm"这个页面的时候, 发现"擅长"和"执业经历"这两个信息通过beautifulsoup是取不到的, 我选取这两个信息的代码如下:soup.select('#full_DoctorSpecialize').get_text(strip=True)soup.select('#...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。