最近写了一个赶集网租房房价数据爬取的爬虫,调用高德API实现房屋地理位置显示,房屋与工作地之间的便捷出行路线查询。在百度网盘链接: https://pan.baidu.com/s/1qYDjUGW 密码: c8q7
1.赶集网租房房价爬虫
赶集网上的租房信息主要爬取房源标题、地址、价格、网页地址。每一条租房信息都存储在class为“f-list-item ershoufang-list”的div中,具有相同的格式和标签。所以租房房价爬虫先从网页中提取所有的租房信息条数,再逐条读取详细的租房信息。
# 获取所有租房信息列表
house_list = html.select(".f-list > .f-list-item > .f-list-item-wrap")
# 逐条租房信息爬取
house_title = house.select(".title > a")[0].string.encode("utf8") # 房源标题
house_addr = house.select(".address > .area > a")[-1].string.encode("utf8") # 房源地址
house_price = house.select(".info > .price > .num")[0].string.encode("utf8") # 价格
house_url = urljoin(ADDR, house.select(".title > a")[0]["href"]) # 房源网页地址
2.Python在本地部署小型服务器
(1) 在命令栏中切换文件目录,cd至index-cq.html所在文件夹,在命令栏开启SimpleHTTPServer
python –m SimpleHTTPServer 8000
(2)在浏览器中打开index-cq.html,网址改为:http://localhost:8000/index-cq.html。index-cq.html为在网上找到的调用高德API的文件,主要是利用高德地图的地理编码,返回房屋地址对应的地理坐标,并以图标的形式显示在地图中。选择工作地,加载租房信息文件price600.csv。如果文件加载不成功,需要修改浏览器快捷方式的属性,在目标’….exe’后面添加” –allow-file-access-from-files”, 注意–allow前面有个空格。
(3)点击蓝色标记,可以查看房屋信息原始网址,最短路径查询