爬虫——关于beautifulsoup4. next_slibing属性的一个坑

最新推荐文章于 2024-08-12 08:47:30 发布

weixin_41740930

最新推荐文章于 2024-08-12 08:47:30 发布

阅读量1.2k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/weixin_41740930/article/details/99696683

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

import requests
import csv
import time
import json
from bs4 import BeautifulSoup as bs


## 试着一下爬7个标签的数据

观察发现每个小区的基本信息都分别存在 “info”和“xiaoquListItemRight”连个子类里

### 首先，确定我们的预期需求，我们想爬取的数据是
* 小区名
* 他的链接
* 售房、出租情况
* 位置
* 标签
* 总价
* 参考均价

### 然后我们运用“检查”去锁定Elements
所有的
每个小区的信息都存在 li class = 'clear xiaoquListItem'这个类里

#### info 中包括 'title' 'houseInfo'  'positionInfo' 'agentInfo' 'tagList'这几个子类
##### title 里有名称和链接 houseinfo里有售房租房的状况 postion里有位置 tag里有他的特色，

#### XiaoquListItemRight 里则包括 ‘totalprice’ 和‘priceDesc’主要是总价和参考价格




```python
head = {'Host': 'bj.lianjia.com',
        'Referer': 'https://bj.lianjia.com/?utm_source=baidu&utm_medium=pinzhuan&utm_term=biaoti&utm_content=biaotimiaoshu&utm_campaign=sousuo&ljref=pc_sem_baidu_ppzq_x',
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' 
    
       }

url = 'https://bj.lianjia.com/xiaoqu/rs东花市/'
r = requests.get(url, headers=head)
soup =bs(r.text)
print (soup.prettify())
xiaoqu = soup.find_all('li',class_ = "clear xiaoquListItem")
xiaoqu[1].prettify()
print(type(soup),type(xiaoqu),type(xiaoqu[1]))