实战项目之-scrapy框架爬取链家网数据

这是一个使用Scrapy框架进行的小项目,爬取了链家网的100页数据。获取的数据包括房源信息,仅展示了spider页面,仅供学习交流,不应用于商业目的。
摘要由CSDN通过智能技术生成

只是闲来无事的时候做的这么一个小项目,只爬取了100页数据,获取到的数据,如下图所示:

 

仅展示一下spider页面:

# -*- coding: utf-8 -*-
import scrapy

class LianjiaSpider(scrapy.Spider):
    name = 'lianjia'
    allowed_domains = ['lianjia.com']
    #初始url
    start_urls = ['https://bj.lianjia.com/ershoufang/pg1']
    
    def parse(self, response):
        # with open('lianjia.html','wb')as f:
        #     f.write(response.body)
        #匹配所有的li标签
        li_cards = response.xpath('//li[@class="clear LOGCLICKDATA"]')
        #遍历每一条li标签
        for i in li_cards:
            item = {}
            item['title'] = i.xpath('./div/div/a/text()').extract_first()
 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值