深圳房产信息爬取

from selenium import webdriver
import time

driver = webdriver.Firefox(executable_path = r'C:\Users\mok9697m\Desktop\geckodriver.exe')
#把上述地址改成你电脑中geckodriver.exe程序的地址
for i in range(0,3):
    link = "https://zh.airbnb.com/s/Shenzhen--China/homes?items_offset=" + str(i *18)
    driver.get(link)
    time.sleep(5)
    rent_list = driver.find_elements_by_css_selector('div._gig1e7')

    for eachhouse in rent_list:
        try:
            comment = eachhouse.find_element_by_css_selector('div._qhtkbey').text
        except:
            comment = 0
        price = eachhouse.find_element_by_css_selector('div._1ovgt1s0>div._1ixtnfc>span:nth-child(2)')
        price = price.text.replace("每晚", "").replace("价格", "").replace("\n", "")
     
        details = eachhouse.find_element_by_css_selector('span._fk7kh10')
        details = details.text
        house_type = details.split(" · ")[0]
        bed_number = details.split(" · ")[1]
       
        print (comment,price,house_type,bed_number)
    time.sleep(5)
 #price = eachhouse.find_element_by_css_selector('div._1yarz4r')
       # price = price.text.replace("每晚", "").replace("价格", "").replace("\n", "")
        #name = eachhouse.find_element_by_css_selector('div._vbshb6')
       # name = name.text
        #details = eachhouse.find_element_by_css_selector('span._14ksqu3j')
        #details = details.text
       # house_type = details.split(" · ")[0]
       # bed_number = details.split(" · ")[1]
        #print (comment, price, name, house_type, bed_number)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,这是一个比较复杂的任务,需要使用Python中的爬虫技术来实现。以下是一个基本的爬取深圳租房网站房源信息及图片的代码框架,供您参考: ```python import requests from bs4 import BeautifulSoup import os # 设置请求头,防止被网站识别为爬虫 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 获取网页内容 def get_html(url): try: response = requests.get(url, headers=headers) if response.status_code == 200: return response.content except requests.RequestException as e: print(e) return None # 解析网页内容,获取房源信息及图片链接 def parse_html(html): soup = BeautifulSoup(html, 'lxml') # TODO: 解析网页内容,获取房源信息及图片链接 return house_list, img_list # 下载图片到本地 def download_image(url, path): response = requests.get(url, headers=headers) if response.status_code == 200: with open(path, 'wb') as f: f.write(response.content) # 主函数,遍历每一页获取房源信息及图片链接,并下载图片到本地 def main(): # TODO: 遍历每一页获取房源信息及图片链接,并下载图片到本地 pass if __name__ == '__main__': main() ``` 在这个代码框架中,我们需要先获取网页内容,然后解析网页内容,获取房源信息及图片链接。最后,我们遍历每一页获取房源信息及图片链接,并下载图片到本地。 注:由于深圳租房网站的网页结构可能会不断变化,以上代码仅供参考,具体实现需要根据网站的实际情况进行调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值