python网络爬虫--项目实战--scrapy爬取贝壳网(7)

最新推荐文章于 2023-06-20 07:30:00 发布

太原浪子

最新推荐文章于 2023-06-20 07:30:00 发布

阅读量695

点赞数

分类专栏： Python网络爬虫文章标签： xpath url

本文链接：https://blog.csdn.net/u010671028/article/details/109234857

版权

本文介绍了使用Python的Scrapy框架爬取贝壳网数据的实战项目，详细展示了bk.py、items.py和pipelines.py三个关键文件的完整代码，涉及XPath解析和URL处理技巧。

摘要由CSDN通过智能技术生成

一、完整代码

bk.py

import json

import scrapy

from ScrapyAdvanced.items import HouseItem


class BkSpider(scrapy.Spider):
    name = 'bk'
    allowed_domains = ['bj.ke.com']
    start_urls = ['https://bj.ke.com/ershoufang/']

    def parse(self, response):

        # house_list_position = response.xpath("//div[@class='address']/div/div/a/text()").extract()
        # # 存在脏数据  一个空的脏数据 一个 正常数据
        # house_list_info = response.xpath("//div[@class='address']/div[@class='houseInfo']/text()").extract()
        house_list_address = response.xpath("//div[@class='address']")
        house_list_titles = response.xpath("//div[@class='title']/a/text()").extract()
        for i in range(len(house_list_address)):
            title = house_list_titles