EasyCrawler-爬取某岛国的病例统计网

最新推荐文章于 2024-09-13 22:02:36 发布

艾V古斯

最新推荐文章于 2024-09-13 22:02:36 发布

阅读量445

点赞数

分类专栏：爬虫 Java webcollector 文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a81579261/article/details/105580125

版权

本文介绍如何使用EasyCrawler爬取日本某网站的疾病统计数据，包括首页的分类和各分类下的详细病例信息。通过CSS选择器进行数据抓取，遇到的问题以及解决方案，如设置单线程避免服务器过载，以及手动处理URL匹配来获取完整数据。

摘要由CSDN通过智能技术生成

背景

深圳老哥需求又来了，这次直接就扔过来一个网站：https://caloo.jp/achievements/
两张图片：
在这里插入图片描述

然后，秒懂了，就是要爬取首页的分类以及各种分类下的病的数据统计。简单，搞起！

初版效果图

在这里插入图片描述
前两列为首页爬取出来的分类和病名，后面皆为点进去的详情页面信息，包括有：名字，描述，手术案列数，非手术案例数，合计等。

构思与实现

EasyCrawler并没有提供一个页面爬几条数据，再去另一个页面爬几条数据的方法，所以我们必须得分开两次进行爬取。
首先我们得用EasyCrawler爬取详细病例信息，包括字段应该如下：

在这里插入图片描述

爬取完详细后，再去单独爬取首页，获取分类以及名称，再用url与详细匹对（为啥不用名字匹对？看一下效果图你就会发现，明细里面的标题不一定是首页名称，但是url是不会有错，因为我们是从url进入明细页面的），形成初版效果图。

初步构思完了，下面开始展现真正的技术了
首先，我们得对EasyCrawler里面的get方法进行一个小调整
在这里插入图片描述
设置线程为单线程，因为岛国的网站比较LJ，如果开启了多线程的话，会报503（服务器过载）的。

（这一步可有可无）然后，在visitContent方法的最后加入url判断如果url已经写进了数据库了就不要再写了，并对url字段建一个唯一索引，这样好方便我们后面的匹对。
在这里插入图片描述
最后，根据之前教的，利用CSS选择器去爬取对应的数据即可。
参数如下：

{
   
    "depth":"2",
    "exportKey":"",
    "page":"https://caloo.jp/achievements/"<

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。