Gecco学习笔记（八）

最新推荐文章于 2021-12-07 09:18:23 发布

软工7班姜彪

最新推荐文章于 2021-12-07 09:18:23 发布

阅读量288

点赞数

文章标签：爬虫 java

本文链接：https://blog.csdn.net/j000818/article/details/121755160

版权

2021SC@SDUSC

最近在分析Gecco的源代码，所以就想着测试一下java爬虫gecco的稳定性

测试结果：

基本信息

Interval: 5000,

StartTime: "2016-03-22 14:47:40",

ThreadCount: 1,

StarUrlCount: 8

单线程，共有8个初始抓取链接，每个请求抓取完成后休息5秒。

爬虫监控数据

taocan.ctrip.com
  Statistics: "{"exception":134,"serverError":0,"success":11270}"

  vacations.ctrip.com
  Statistics: "{"exception":61,"serverError":0,"success":17548}"

  huodong.ctrip.com
  Statistics: "{"exception":42,"serverError":0,"success":11814}"

  www.tuniu.com
  Statistics: "{"exception":4,"serverError":0,"success":228}"

  temai.tuniu.com
  Statistics: "{"exception":78,"serverError":0,"success":3507}"

  www.lvmama.com
  Statistics: "{"exception":0,"serverError":415,"success":41}"
  http://www.lvmama.com/tuangou/sale-623250 DOWNLOAD ERROR :500
  http://www.lvmama.com/tuangou/sale-612687 DOWNLOAD ERROR :400

结果

从监控数据可以看到：

ctrip.com相关的数据抓取成功率较高，为99.99%，出现的失败都是exception，也就是类似超时之类的错误。

tuniu.com相关的数据抓取成功率也较高，为99.97%，出现的失败也是exception。

lvmama.com的成功率就十分低了，而且返回都是serverError也就是服务器500或者400错误，查看发日志发现可能对方服务器对ip做了访问限制，在成功抓取10多条后就一直报400或者500错误。

##多线程测试场景爬虫采用3线程，测试时间2×24小时，测试期间系统无异常，jvm内存稳定。测试结果：

基本信息

 Interval: 5000,
  StartTime: "2016-03-26 11:16:57",
  ThreadCount: 3,
  StarUrlCount: 8

3线程，共有8个初始抓取链接，每个请求抓取完成后休息5秒。

爬虫监控数据

taocan.ctrip.com
  Statistics: "{"exception":58,"serverError":0,"success":19306}"

  vacations.ctrip.com
  Statistics: "{"exception":51,"serverError":0,"success":31402}"

  huodong.ctrip.com
  Statistics: "{"exception":62,"serverError":0,"success":17807}"

  www.tuniu.com
  Statistics: "{"exception":2,"serverError":0,"success":466}"

  temai.tuniu.com
  Statistics: "{"exception":118,"serverError":0,"success":5603}"

  www.lvmama.com
  Statistics: "{"exception":1,"serverError":410,"success":39}"
  http://www.lvmama.com/tuangou/deal-580212 DOWNLOAD ERROR :400