记录爬取信用中国

最新推荐文章于 2024-08-15 20:09:27 发布

weixin_34210740

最新推荐文章于 2024-08-15 20:09:27 发布

阅读量915

点赞数

文章标签： python 爬虫数据库

原文链接：http://www.cnblogs.com/shenyiyangle/p/10942429.html

版权

刷新页面抓包，找到接口，记为接口1

分析请求头部，需要请求参数encryStr和MmEwMD，写请求时发现只需要encryStr，MmEwMD可以不带

在页面上搜索，抓包分析

发现有接口直接返回encryStr，记为接口2

分析请求头部只需要输入的关键字

可以看出encryStr是加密后的公司名称字符串，接口2通过加密的字符串获得黑名单信息，而接口1通过明文字符串获得加密字符串

所以爬虫思路：

1.输入明文通过接口1获取加密字符串encryStr

2.输入加密字符串通过接口2获取黑名单信息

遇到的问题：

1.可能会遇到请求失败、接口调用失败等不能获取数据问题，需要添加重试功能，获取失败公司添加到列表重新获取

2.黑名单数据类型有两类，分别处理

3.数据类型”失信黑名单-法人”可能有多条数据，可以根据案号循环并按照格式生成多条数据，但在保存到数据库时，多条数据自动生成的id一样，只存入了第一条数据，使用md5压缩后的案号作为插入时的id来确保数据可以正常插入

4.有访问频率限制，而且请求速度比较慢，使用代理ip，使用30个协程来处理

待改进：

1.代理池https和http混合，网站使用https，且抓到的代理质量不好，需要修改代理池相关代码

2.接口调用失败率较高，失败重试功能不够好，需要重写

3.使用轻量级的requests+协程的方式实现并发，因为访问速度和代理质量，效果不是很好。准备使用scrapy来处理大量数据和异常重试

转载于:https://www.cnblogs.com/shenyiyangle/p/10942429.html

weixin_34210740

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。