目的
作为一个挂了几套公寓在airbnb上的小房东,又作为一个喜欢分析数据的小孩子,当学习爬虫的过程中当然要选择爱彼迎这个网站来试手;在网上看到一个大神po的一长串的代码,用了之后的确可以马上爬取,但爬到的内容不是我想要的,而且我总感觉复杂了很多,于是我开始用我现有的知识来进行爬取;
方法
库:requests lxml
1.分析网页url构建17页的url代码
很容易发现规律url=‘https://www.airbnb.cn/s/chengdu/homes?query=chengdu&items_offset=’+{0,18,36.....}
2.分析网页我们需要的xpath路径
通过审查元素 我们想要的路径为
公寓名://div[@class=’_qhtkbey’]/text()
评价数:///div[2]/div[1]/div/span[2]/text()#我期望用评价数来作为房源的销售热度来进行分析,因为airbnb并不会显示交易量
显示价格:///div[2]/div[2]/div/div/div[1]/div/span/span/span/span[1]/span[2]/text()
房源类型: