Part 1:
2016年8月13号晚开始写第三个爬虫小程序(安居客),至8月14号中午完成编写并运行成功。
项目源码:https://github.com/carlblocking/xxw-for-public/tree/master/AnJuKeSpider
总体思路:
这里借鉴了Web Magic的框架,但没有完全照搬。这里对于Web Magic,个人还是有一点小意见,即里面的正则表达式。个人有些反感正则表达式,还是喜欢用Jsoup来解析网页(运行下来主观感受是Jsoup比正则匹配更快,而且更容易理解)。
在整个小程序中,只有一个实体类,houseInfo类。该类主要用于存储出租房屋的相关信息。包括租金、地点等。
Anal

本文介绍了一个使用Java编写的简单爬虫,用于收集安居客上海租房信息。作者通过分析网页数据,利用Jsoup替代正则表达式进行解析,并存储到数据库中。在运行过程中,遇到了数据库连接管理和IP限制等问题,并提出了相应的解决方案。最终,程序成功收集了1000条数据,并进行了初步的数据分析,揭示了上海租房市场的部分特征。
最低0.47元/天 解锁文章
3483

被折叠的 条评论
为什么被折叠?



