环境:win10,anaconda3(python3.5)
爬取对象网站:链家上海租房
方法一:利用requests获取网页信息,再利用正则提取数据,并将结果保存到csv文件。
代码地址:代码
抓取到的数据如下所示:
从左往右依次是:房屋链接、房屋描述、房屋布局、房屋大小、所在区、所在区的具体区域、房屋楼层数、交通信息、看房时间、房租(/月)、上架时间以及当前有多少人看过该房屋。

方法二:利用requests获取网页信息,再用BeautifulSoup解析数据,并用MongoDB保存结果。
主要爬取的数据有:房屋链接、房屋描述、小区、户型、面积,所在区域、房租、交通信息、多少人看过等。