【Web爬虫逆向】“企业预警通”模糊查询公司信息,逆向案例实战


注:所有逆向教程仅供学习使用,希望同学们守好法律界限,不要对官方网站造成阻塞与困扰。

功能介绍

企业名称模糊查询,获取企业基本信息

效果演示

输入“小米集团”,成功模糊查询获取企业信息。
数据维度包含:公司名称、统一社会信用代码、法人、实际控制人、公司地址、所属行业、营业状态、注册资本

文章结尾可获取源码

思路分析

1、先找到模糊查询的接口

在这里插入图片描述

2、分析headers与params中参数并进行构造

在这里插入图片描述
在这里插入图片描述

3、JS逆向,跟栈,找到js中key和dataCategory的生成方法,并完成js补码构造

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
作为AI语言,Python有着很强大的爬虫能力,但是在一些网站中,会存在反爬虫机制,需要进行逆向处理才能成功爬取数据。下面介绍一个Python爬虫逆向案例案例描述: 有一个网站,该网站需要登录后才能查看数据。过观察该网站的登录过程,可以发现该网站采用了验证码的方式来防止机器登录。因此,需要使用Python逆向处理验证码,才能成功登录并爬取数据。 解决方案: 1. 获取验证码图片 首先需要获取验证码图片,可以过代码模拟登录过程,获取验证码图片。 ```python import requests # 模拟登录,获取验证码图片 login_url = 'https://www.example.com/login' captcha_url = 'https://www.example.com/captcha' session = requests.Session() login_data = {'username': 'your_username', 'password': 'your_password'} response = session.post(login_url, data=login_data) captcha_response = session.get(captcha_url) with open('captcha.png', 'wb') as f: f.write(captcha_response.content) ``` 2. 图像处理 获取验证码图片后,需要对图片进行处理,以便识别验证码。可以使用Python的Pillow库进行图像处理。 ```python from PIL import Image # 图像处理 im = Image.open('captcha.png') im = im.convert('L') im = im.point(lambda x: 255 if x > 140 else 0) im.show() ``` 3. 识别验证码 对图像进行处理后,需要进行验证码识别,可以使用Python的Tesseract库进行识别。 ```python import pytesseract # 识别验证码 captcha_text = pytesseract.image_to_string(im, lang='eng') print(captcha_text) ``` 4. 模拟登录 识别验证码后,就可以模拟登录了。 ```python # 模拟登录 login_data['captcha'] = captcha_text response = session.post(login_url, data=login_data) # 爬取数据 data_url = 'https://www.example.com/data' response = session.get(data_url) print(response.text) ``` 过上述步骤,就可以成功逆向验证码,模拟登录,并爬取网站数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

会振刀的程序员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值