通过接口爬取网页数据的过程

格式化快捷键ctrl+alt+L

爬取https://baike.baidu.com/vbaike 百度百科 需要动态调用接口
从controller层进入接口,
BaiduClient.httpclientGet(url);

第一步:
传入接口地址
String url2 = “https://baike.baidu.com/api/vbaike/knowledgelist?count=8&page=119&keyWord=”;
BaiduClient.testJSON(url2);

第二步:
将其打印到控制台上面
在这里插入图片描述
注意:使用FastJson对接口中的json数据进行转换
参考:https://blog.csdn.net/xzp_12345/article/details/80272981
附:https://blog.csdn.net/xiahuale/article/details/82350487
(可能会遇到)
parseArray通过这个方法将JSON对象转成list集合,遍历
String url4 = (String) list.get(i).get(“wapLink”);
通过get方法拿到键对应的值

第三步:进入详情页,
BaiduClient.httpclientGet2(url4);
在这里插入图片描述
使用JSoup去爬取数据
在这里插入图片描述

第四步:根据选择器去正常获取元素
在这里插入图片描述

第五步:将获取到的数据存入数据库
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值