爬虫-天眼查数据

本文记录了一次紧急学习爬虫的过程,为了解决公司笔试题——从天眼查网站提取股东信息。通过学习BeautifulSoup文档,成功编写了爬虫,但发现数据以JSON格式隐藏在HTML中。最终,成功获取到股东姓名,如马化腾、张志东、陈一丹、许晨晔。
摘要由CSDN通过智能技术生成

前两天收到一个公司的笔试题:
从结果页面中提取股东信息,如:http://www.tianyancha.com/company/9519792 中展示的”许晨晔”等姓名
oh 我还不会爬虫,吓的我赶紧刷了刷知乎,找到一个例子,大体是个模板,然后又去刷了BeautifulSoup的文档(毕竟爬下来之后还是要解析的),so,在我晚上睡觉的时候,我终于能爬个虫了(逃
然而用我学会的套路去爬笔试题,却出现了问题,爬下来的html里面的数据呢????are you kidding?吓得宝宝又看了看,soga json的。。
查查查:之后就有了下面的版本

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = (
     "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) Gecko/201001
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
您好!要使用Python进行天眼爬虫,您可以按照以下步骤进行操作: 1. 安装所需的库:首先,确保您已经安装了Python,并使用pip安装了必要的库,如requests、beautifulsoup4和lxml。您可以使用以下命令进行安装: ``` pip install requests beautifulsoup4 lxml ``` 2. 发送请求并获取HTML:使用requests库发送GET请求到天眼网站,获取返回的HTML页面。您可以使用以下代码实现: ```python import requests url = 'https://www.tianyancha.com/' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36' } response = requests.get(url, headers=headers) html = response.text ``` 3. 解析HTML并提取数据:使用beautifulsoup4库解析HTML页面,并提取所需的数据。您可以根据天眼网站的页面结构和需要爬取信息进行相应的解析操作。以下是一个简单的示例,提取公司名称和注册资本: ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'lxml') company_name = soup.select_one('.name').text registered_capital = soup.select_one('.regCapital').text ``` 4. 处理反爬措施:天眼网站可能会采取一些反爬措施,如验证码、IP封锁等。您可能需要在爬取过程中处理这些反爬措施,例如使用代理IP、设置请求头、处理验证码等。根据具体情况进行相应的处理。 请注意,根据天眼网站的使用条款,未经授权爬取天眼数据可能违反相关规定,请确保您的爬取行为合法合规,并遵守网站的使用规定。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值