1、爬取思想
百度信用网站 https://xin.baidu.com/
1.1、尝试获取数据和查看url链接
1、我们可以随便搜索法人代表,例如输入:马云
2、我们尝试搜索公司名称,例如输入:阿里巴巴
3、我们尝试搜索社会统一信用码,例如输入:91330100716105852F
4、我们尝试搜索企业地址,例如输入:浙江省杭州市滨江区网商路699号
综述:其中对应的q=后面的值就是 搜索关键词,因为编码问题显示的不是中文而是%E9%A9%AC%E4%BA%91,而**t=**后面的值对应的是 搜索类型 如下,有8种:0=全部,1=企业名/注册号,2=法人代表,3=地址,4=经营范围,5=股东,6=高管,7=商标
1.2、查看网页源代码的内容
- 可以通过右键查看源代码
- 使用Postman等测试工具查看,如下图
从上图可以看出返回的数据中有json数据,大部分获取数据都是从这里取出来的。
所以我们只需要截取这里面的内容,转换下就可以了。
##2、PHP代码实现
#####2.1、爬取企业信息
//获取公司统一社会信用代码
$keyword = input('keyword') ?? 0;
if (!$keyword) $this->error('请填写关键词!');
$url = 'https: