java实现接口爬虫

用接口方式的爬虫,获取到页面的url

例如csdn的网页:https://silkroad.csdn.net/api/v2/assemble/list/channel/search_hot_word?new_hot_flag=1&channel_name=pc_hot_word&size=20&user_name=qq_52611659&platform=pc&imei=10_19872475880-1689927112269-775170

我需要爬取我之前的搜索关键词,就是从这个接口拿到数据的

第一步复制接口路径的CURL

 第二步,复制到apifox当中,类似于这种有足够的请求参数 header和parm

第三步:模仿参数写代码 ,这样就能爬取到需要参数的值是什么,例如这里是爬取的总条数.

 

String format = LocalDateTime.now().format(DateTimeFormatter.ofPattern("yyyy年MM月dd日HH时mm分调剂爬虫数据"));
List<AdjustReptileDataBean> data = new ArrayList<>();
JSONObject fieldDescription = new JSONObject();
try {
HttpRequest request = HttpRequest.post("网页的路径");
request.header("Accept", "application/json, text/javascript, */*; q=0.01");
request.header("Content-Type", "application/x-www-form-urlencoded; charset=UTF-8");
request.header("Referer", "https://fe.bnu.edu.cn/pc/cms1info/list/1/13");
Map<String, Object> params = new HashMap<>();
// 不能设置大了。会被重置为20
params.put("columnid", 13);
params.put("page", 1);
request.form(params);
HttpResponse response = request.execute();
int status = response.getStatus();
if (status != 200) {
log.info("网站状态码:{}, 不满足爬取逻辑", status);
return;
}
String body = response.body();
JSONObject json = JSONUtil.parseObj(body);
Integer nowNum = json.get("count", Integer.class);

最后拿到nowNum数据之后就证明已经爬取到数据了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值