Part 1:
2016年8月13号晚开始写第三个爬虫小程序(安居客),至8月14号中午完成编写并运行成功。
项目源码:https://github.com/carlblocking/xxw-for-public/tree/master/AnJuKeSpider
总体思路:
这里借鉴了Web Magic的框架,但没有完全照搬。这里对于Web Magic,个人还是有一点小意见,即里面的正则表达式。个人有些反感正则表达式,还是喜欢用Jsoup来解析网页(运行下来主观感受是Jsoup比正则匹配更快,而且更容易理解)。
在整个小程序中,只有一个实体类,houseInfo类。该类主要用于存储出租房屋的相关信息。包括租金、地点等。
Anal