北京市房价预测---数据收集

本文介绍了如何通过爬虫技术收集北京楼盘的数据,包括楼盘名称、地址、开盘时间、价格和销售状态等信息,共获取了2073条有效数据。详细讲述了观察网址结构、soup.select()方法的使用,以及爬虫代码实现过程。
摘要由CSDN通过智能技术生成

1.查看网址的结构

由下图可知楼盘信息的url。明显可知后缀为search-y{}。收集的信息为楼盘名、地址、开盘时间、价格、销售状态。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.soup.select()方法的常用方法

1class
对于html内的内容,可以通过class来进行定位,一般形式为:
soup.selecet('.class')
这样可以定位到所有class内容的内容。
2、id
id在一个html中是唯一的,因此可以通过id来找寻唯一的内容,形式为:
soup.select('#id')
3、标签
标签的话,可以直接寻找:
soup.select('a')
4、组合查找
某一类下的某个标签中的内容,采用空格隔开:
soup.select('.class a')

3.爬虫代码

def getHousesDetails(url):
  from bs4 import BeautifulSoup
  import requests
  request = requests.get(url)
  request.encoding = 'utf-8'
  soup = BeautifulSoup(request.text,'lxml')
  houses = soup.select
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值