jsoup抓取商品信息实现(个人学习)
利用jsoup来解析html 抓取想要的商品信息文章目录
前言
开发工具idea jdk1.8 maven结构
利用jsoup工具 抓取想要的商品信息 例如商品标题以及价格等
一、配置jsoup依赖
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.8.3</version>
</dependency>
二、抒写后端控制层代码
1.先写一个跳转方法以及给前端返回一个页面(参数按照前端接口)
crawStudent就是前端页面的名字 做参数传递使用
@RequestMapping(value = "/crawlStudent")
@ResponseBody
public ModelAndView crawlStudent() throws IOException {
ModelAndView mv = new ModelAndView();
mv.setViewName("crawlStudent");
return mv;
}
2.写jsoup抓取数据的主要业务逻辑
代码如下):
@RequestMapping(value = "/crawlUrlAndShow")
@ResponseBody
public Object crawlUrlAndShow(String url) throws IOException {
// 需要爬取商品信息的网站地址
// url = "https://www.amazon.cn/dp/B07598VZR8";
// 动态模拟请求数据
CloseableHttpClient httpclient = HttpClients.createDefault();
HttpGet httpGet = new HttpGet(url);
// 模拟浏览器浏览(user-agent的值可以通过浏览器浏览,查看发出请求的头文件获取)
httpGet.setHeader("user-agent", "