BeautifulSoup爬取贝壳网成都二手房源信息(附:完整源代码)

本文介绍如何利用Python的BeautifulSoup库爬取贝壳网成都地区的二手房源信息,包括开发环境设置、获取房源URL及详细信息,最后将数据保存为CSV和Excel文件。仅供技术交流,不建议商业应用。
摘要由CSDN通过智能技术生成

BeautifulSoup爬取贝壳网成都二手房源信息

最近想出一套二手房,刚好在学习爬虫,那就顺手爬一下贝壳上成都各区二手房信息了解一下行情,本篇先介绍数据爬取,数据分析稍后有时间再写。仅用于技术交流,请勿商业应用,如有侵权,联系删除。

1. 开发环境:
python 3.8.3;
bs4, pandas, requests;
存为csv, excel文件;

个人比较喜欢用bs4, 比较简洁,xpath也有优势,虽然路径稍复杂,但一步一步的往下找非常清晰。(效率方面暂时不做为重点考虑)

2. 最终获取表格展示
excel表格数据

3. 爬取过程分析
访问成都二手房一级页面url:
https://cd.ke.com/ershoufang/
分析一级页面可以看到每页有30套房源,房源列表在ul标签下面,class为 SellListContent。
二手房源一级页面房源列表
然后获取每套房源详情页的url,可以看到url在li–>a–>href中,bs4直接获取即可。

def get_detail_url(page):
    
    """
    获取每一页30套房源的详情url
    """
    
    base_url = 'http://cd.ke.com/ershoufang/pg{}/'.format(page)
    
    headers = {
   
            
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60",
            }
    
    response = requests.get(url = base_url, headers = headers)

    # print(response.status_code)

    base_data = response.content.decode()
    
    soup = BeautifulSoup(base_data, 'lxml')
    
    house_lists = soup.find_all('li', attrs={
   'class':'clear'})
    
    url_lists=[]
    
    for house in house_lists:
        
        house_link = house.find('a')['href']
        # print(house_link)
        url_lists.append(house_link)
        
    # print(url_lists)
    
    return url_lists

进入详情页获取该房源的所有信息,包括基本信息,交易信息,小区简介等。

保存数据为csv和excel格式。

详细代码如下:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Fri Nov 27 16:53:04 2020

1. 获取贝壳网 成都市二手房信息
2. 存为csv, excel文件

@author: 进击的SB
"""

import requests
from bs4 import BeautifulSoup
import pandas as pd
import random
import time



def get_detail_url(page):
    
    """
    获取每一页30套房源的详情url
    """
    
    base_url
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值