第一步:在项目中引入hutool工具
<!-- hutool工具 -->
<dependency>
<groupId>cn.hutool</groupId>
<artifactId>hutool-all</artifactId>
<version>5.0.3</version>
</dependency>
第二步:查看网页源码找到要抓取的dom元素,并使用正则匹配我们需要的内容
第三步:通过要抓取网页的URL和配置的正则就可以抓取到想要的内容,示例如下:
仅通过两行代码就可以完成简单的网页数据抓取
第四步:将抓取到的内容入库
不得不说,抓取本身并不困难,尤其配合Hutool工具会让这项工作变得更加简单快速,而其中的难点便是分析页面和定位我们需要的内容然后转换为正则。