案例需求:
1.使用scrapy爬虫技术爬取链家租房网站(成都租房信息_成都出租房源|房屋出租价格【成都贝壳租房】 )的数据(包括标题、价格和链接)
2.利用XPath进行数据解析
3.保存为本地json文件
分析:
请求地址:
伪装浏览器
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
关闭君子协议——注释这行即可
# ROBOTSTXT_OBEY = True
XPath解析数据
#2.解析数据 name=response.xpath('//div[@class="content__list--item"]//a[@class="content__list--item--aside"]/@title').extract() price = response.xpath('//span[@class="content__list--item-price"]/em/text()').extract() link = response.xpath('//div[@class="content__list--item"]//a[@class="content_