最近在学习Java,想写个小项目练习一下,加上之前用Python写过一个小爬虫,爬虫的趣味性也比较强,所以想用Java写一个爬虫;断断续续地写了三四天,终于写完了;
主要工具是jsoup,负责网页的爬取和解析;持久层框架用的是MyBatis,之前我没用过MyBatis,这次是第一次用,感觉上手难度比Hibernate低很多;中间的时候,用了JUnit做单元测试,但是用的不多,做单元测试是个好习惯,以后要注意;
主要思路:通过对智联搜索链接中关键字和地点的替换,完成搜索主页爬取链接的构造,然后就是简单的爬取,解析;通过解析,获得招聘信息详情页的链接,继续爬取,解析;每次爬取的间隔在3-5s,没有其他的反反爬虫策略
未完待续