EasyCrawler-爬取某岛国的病例统计网

背景深圳老哥需求又来了,这次直接就扔过来一个网站:https://caloo.jp/achievements/两张图片:然后,秒懂了,就是要爬取首页的分类以及各种分类下的病的数据统计。简单,搞起!初版效果图前两列为首页爬取出来的分类和病名,后面皆为点进去的详情页面信息,包括有:名字,描述,手术案列数,非手术案例数,合计等。构思与实现EasyCrawler并没有提供一个页面爬几...
摘要由CSDN通过智能技术生成

背景

深圳老哥需求又来了,这次直接就扔过来一个网站:https://caloo.jp/achievements/
两张图片:
在这里插入图片描述
在这里插入图片描述
然后,秒懂了,就是要爬取首页的分类以及各种分类下的病的数据统计。简单,搞起!

初版效果图

在这里插入图片描述
前两列为首页爬取出来的分类和病名,后面皆为点进去的详情页面信息,包括有:名字,描述,手术案列数,非手术案例数,合计等。

构思与实现

  1. EasyCrawler并没有提供一个页面爬几条数据,再去另一个页面爬几条数据的方法,所以我们必须得分开两次进行爬取。
  2. 首先我们得用EasyCrawler爬取详细病例信息,包括字段应该如下:

在这里插入图片描述

  1. 爬取完详细后,再去单独爬取首页,获取分类以及名称,再用url与详细匹对(为啥不用名字匹对?看一下效果图你就会发现,明细里面的标题不一定是首页名称,但是url是不会有错,因为我们是从url进入明细页面的),形成初版效果图。

初步构思完了,下面开始展现真正的技术了
首先,我们得对EasyCrawler里面的get方法进行一个小调整
在这里插入图片描述
设置线程为单线程,因为岛国的网站比较LJ,如果开启了多线程的话,会报503(服务器过载)的。

(这一步可有可无)然后,在visitContent方法的最后加入url判断如果url已经写进了数据库了就不要再写了,并对url字段建一个唯一索引,这样好方便我们后面的匹对。
在这里插入图片描述
最后,根据之前教的,利用CSS选择器去爬取对应的数据即可。
参数如下:

{
   
    "depth":"2",
    "exportKey":"",
    "page":"https://caloo.jp/achievements/"<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值