蓝房网爬虫bs4+requests+北京
1.查看网址的结构
由下图可知楼盘信息的url。明显可知后缀为search-y{}。收集的信息为楼盘名、地址、开盘时间、价格、销售状态。
2.soup.select()方法的常用方法
1、class
对于html内的内容,可以通过class来进行定位,一般形式为:
soup.selecet('.class')
这样可以定位到所有class内容的内容。
2、id
id在一个html中是唯一的,因此可以通过id来找寻唯一的内容,形式为:
soup.select('#id')
3、标签
标签的话,可以直接寻找:
soup.select('a')
4、组合查找
某一类下的某个标签中的内容,采用空格隔开:
soup.select('.class a')
3.爬虫代码
def getHousesDetails(url):
from bs4 import BeautifulSoup
import requests
request = requests.get(url)
request.encoding = 'utf-8'
soup = BeautifulSoup(request.text,'lxml')
houses = soup.select