7.3 相关配置

在程序7-1中,使用Site类中的方法配置了网页的重试次数和页面请求之间的时间间隔。查看Site类的源码可以发现,它还可以配置网络爬虫的其它信息。

1.循坏重试次数
为防止某些网络原因导致URL请求失败,WebMagic加入了循环重试机制。该机制会将请求失败的URL重新加入到待请求URL队列的尾部,继续请求,直到达到重试次数。为实现这个机制,需要调用Site类的setCycleRetryTimes()方法,该方法使用示例如下所示。

Site site = Site.me().setCycleRetryTimes(3);

2.超时时间
Site类中的setTimeOut()方法用于设置超时时间,单位为毫秒,默认超时时间为5000毫秒,该方法使用示例如下所示。

Site site = Site.me().setTimeOut(3000);

3.头信息
Site类中的addHeader()方法用于设置请求头信息,该方法使用示例如下所示。

Site site = Site.me().addHeader("Connection","keep-alive").addHeader("Host","www.nmpa.gov.cn");

4.Cookie
Site类中的addCookie()方法用于添加Cookie信息,该方法使用示例如下所示。

Site site = Site.me().addCookie("_gscu_515232071","87336172t121kq10").addCookie("security_session_verify","16f11f26eda569644c36582d26e72311");

5.User-Agent
Site类中使用setUserAgent()方法用于设置User-Agent,该方法使用示例如下所示。

Site site = Site.me().setUserAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36");

6.编码
Site类中使用setCharset()方法用于设置编码,该方法使用示例如下所示。

Site site = Site.me().setCharset("utf-8");
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值