实战 | webmagic爬取实战之爬取保险经纪人信息

介绍

小小根据上次爬取经验,发现爬取的时候,信息不太完善,这次针对手机页面进行爬取。

查看手机页面

相对于pc端口的页面,手机端的页面更容易爬取。通过网络信息,可以查看到是这个请求发起的网络信息。查看相应的参数。通过查看相应的参数,可以知道发送的json如下

Search.Pagesize: 10
Search.Pageindex: 2
Search.CompSymbol:
Search.CitySymbol: BeiJing
Search.ProvinceSymbol: Beijing

换城市的时候,发送该请求,可以看到使用的是拼音的简称。

发送的json如下

Search.Pagesize: 10
Search.Pageindex: 2
Search.CompSymbol:
Search.CitySymbol: Dongguan
Search.ProvinceSymbol: Guangdong

这样就完成了最基本的json相关的数据。

postman进行基本测试

这里使用postman实现基本测试。发送的url如下

经过测试,这个接口可以使用。

编写爬虫url爬取相关url链接

查询获取url的基本方法

这里查询获取url的基本方法,由于沃宝全是顶级的cn域名,所以这里只能采用获取所有连接+正则的方式进行匹配。匹配效果如下 通过发送链接,可以看到有的地址没有。查询postman,查看相关的发送请求。通过这样,就可以看到需要添加以下的三个参数。

webmagic 添加相关的参数

添加相关的参数以后发现请求失败。如图。

这里由于请求出错,所以根据问题进行排查。发现需要添加三个请求头。

添加请求头

使用postman挨个测试接口。

添加请求头

问题依旧呈现。

搜索问题

问题搜索下来说是去掉参数Content-Length 的问题。重新再次测试。

夜晚已经很深了,明天博主将会继续进行爬取 对头部信息进行测试

小明菜市场

推荐阅读

● 实战 | WebMagic 爬取某保险经纪人网站经纪人列表之网站列表爬取

● 实战 | WebMagic 实现分布式爬虫

● 实记 | MongoDB 多表连接查询

● 新知 | MongoDB 账号管理

● 方案 | Mongodb 高可用落地方案

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值