北京市房价预测---数据收集

最新推荐文章于 2023-02-06 22:51:22 发布

dayday学习

最新推荐文章于 2023-02-06 22:51:22 发布

阅读量749

点赞数 1

分类专栏：房产预测文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_41781408/article/details/103753062

版权

本文介绍了如何通过爬虫技术收集北京楼盘的数据，包括楼盘名称、地址、开盘时间、价格和销售状态等信息，共获取了2073条有效数据。详细讲述了观察网址结构、soup.select()方法的使用，以及爬虫代码实现过程。

摘要由CSDN通过智能技术生成

1.查看网址的结构

由下图可知楼盘信息的url。明显可知后缀为search-y{}。收集的信息为楼盘名、地址、开盘时间、价格、销售状态。
在这里插入图片描述

2.soup.select()方法的常用方法

1、class
对于html内的内容，可以通过class来进行定位，一般形式为：
soup.selecet('.class')
这样可以定位到所有class内容的内容。
2、id
id在一个html中是唯一的，因此可以通过id来找寻唯一的内容，形式为：
soup.select('#id')
3、标签
标签的话，可以直接寻找：
soup.select('a')
4、组合查找
某一类下的某个标签中的内容，采用空格隔开：
soup.select('.class a')

3.爬虫代码

def getHousesDetails(url):
  from bs4 import BeautifulSoup
  import requests
  request = requests.get(url)
  request.encoding = 'utf-8'
  soup = BeautifulSoup(request.text,'lxml')
  houses = soup.select

最低0.47元/天解锁文章

dayday学习

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
北京市房价预测---数据收集

蓝房网爬虫bs4+requests+北京1.查看网址的结构2.soup.select()方法的常用方法3.爬虫代码4.爬取结果1.查看网址的结构由下图可知楼盘信息的url。明显可知后缀为search-y{}。收集的信息为楼盘名、地址、开盘时间、价格、销售状态。2.soup.select()方法的常用方法1、class对于html内的内容，可以通过class来进行定位，一般形式为：...
复制链接

扫一扫

专栏目录