最近,实验室的师兄马上就要毕业,要在工作的附近租个房子。于是自己就抱着玩一下的心态去安居客上爬取租房信息。
首先我是用的是Jsoup来分析html网页,从中获得我们所需要的数据。在得到这些数据之后,再将这些数据导入到我们本地的excel表格中,这里我使用了网上的一个开源工具包xxl-excel很好用。
接下来我们就可以开始动手爬取网页信息了。首先打开安居客的网页。先在网站上初步刷选。
我使用的是谷歌浏览器,按下F12选择Network查看网页给我们返回的请求。
在网页代码中有一个这样的标签,可以通过Jsoup解析出其中的内容。往下翻就可以查看到房子的一些信息。里面有房子所在的小区,房子的地址,房子结构,价格,简单介绍等信息。
xxl-excel配置信息
package anjuke; import com.xuxueli.poi.excel.annotation.ExcelField; import com.xuxueli.poi.excel.annotation.ExcelSheet; import org.apache.poi.hssf.util.HSSFColor; @ExcelSheet(name = "安居客房子", headColor = HSSFColor.HSSFColorPredefined.LIGHT_GREEN) public class Anjuke { @ExcelField(name = "小区名字") private String name; @ExcelField(name = "价格") private int price; @ExcelField(name = "房子详情链接") private String url; @ExcelField(name = "房子地址") private String address; @ExcelField(name = "房子结构") private