最近在学习java的爬虫技术,学的是黑马的视频资源,由于是几年前的视频啦,京东页面有些许变化,在此记录我遇到的问题,使用的爬虫技术是httpClient和jsoup,项目搭建使用的springboot+ jpa。
首先给出主页的代码:
@Componentpublic classItemTask {
@AutowiredprivateHttpUtils httpUtils;
@AutowiredprivateItemService itemService;public static final ObjectMapper MAPPER = newObjectMapper();//设置定时任务执行完成后,再间隔100秒执行一次
@Scheduled(fixedDelay = 1000 * 100)public void process() throwsException {//分析页面发现访问的地址,页码page从1开始,下一页page加2
String url = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&suggest=1.his.0.0&wq=%E6%89%8B%E6%9C%BA&s=121&click=0&page=";//遍历执行,获取所有的数据
for (int i = 1; i < 10; i = i + 2) {//发起请求进行访问,获取页面数据,先访问第一页
String html = this.httpUtils.getHtml(url +i);//解析页面数据,保存数据到数据库中