爬虫程序中user-agent的重要性

文章讲述了在使用superagent爬取集思录网站的可转债数据时遇到的问题,即由于缺少user-agent头部导致只能获取到30条游客限免记录。解决方案是添加user-agent头部模拟浏览器请求,以获得完整数据。
摘要由CSDN通过智能技术生成

想写一个爬虫爬取集思录网站的可转债信息,使用superagent做了请求库,在做获取列表的可转债列表的时候返回结果总是显示30条(游客只能查看30条记录)
查找问题最终原因是因为发送的报文中没有user-agent报头
如果不设置用户代理报头,一些服务器可能会拒绝请求或返回与预期不同的响应。因此,在请求中包含一个user-agent头通常是一个很好的实践。

superagent
  .post(urls.loginUrl)
  .set("cookie", cookieArr.join("; "))
  .set(
    "user-agent",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"
  )
  .type("form")
  .send({
    return_url: `https://www.jisilu.cn/web/data/cb/list`,
    user_name: loginInfo.userName,
    password: loginInfo.password,
    auto_login: 0,
    aes: 1,
  })
  .then(function (response) {
    resolve(response);
  });
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值