爬取房天下(http://newhouse.cd.fang.com/house/s/)成都地区的新房信息。
打开http://newhouse.cd.fang.com/house/s/,F12进入控制台
点击控制台的左上角的按钮,这是你可以将鼠标移至房天下页面的任何一个地方然后单击,你就可以看到该地方在html代码中的位置,比如:我点击红色区域的文本,那么在控制台中就会出现该文本在html代码中的位置。分析html代码,了解页面结构,然后获取你需要爬取内容在html代码中的路径,再稍微做些整理,就可以得到你想要爬取的内容。我主要用的是beautifulsoup。
代码讲解:
1.此段代码主要是获取成都地区新房信息在此网站上分成了多少页,之后通过循环的方式将每一页的信息都爬取出来。
URL = 'http://newhouse