爬虫-天眼查数据

最新推荐文章于 2024-07-09 11:06:28 发布

赵小丽-programer

最新推荐文章于 2024-07-09 11:06:28 发布

阅读量7.1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/lili555521/article/details/72857467

版权

本文记录了一次紧急学习爬虫的过程，为了解决公司笔试题——从天眼查网站提取股东信息。通过学习BeautifulSoup文档，成功编写了爬虫，但发现数据以JSON格式隐藏在HTML中。最终，成功获取到股东姓名，如马化腾、张志东、陈一丹、许晨晔。

摘要由CSDN通过智能技术生成

前两天收到一个公司的笔试题：
从结果页面中提取股东信息，如：http://www.tianyancha.com/company/9519792 中展示的”许晨晔”等姓名
oh 我还不会爬虫，吓的我赶紧刷了刷知乎，找到一个例子，大体是个模板，然后又去刷了BeautifulSoup的文档（毕竟爬下来之后还是要解析的），so，在我晚上睡觉的时候，我终于能爬个虫了（逃
然而用我学会的套路去爬笔试题，却出现了问题，爬下来的html里面的数据呢？？？？are you kidding?吓得宝宝又看了看，soga json的。。
查查查：之后就有了下面的版本

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = (
     "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) Gecko/201001