【项目】房天下数据爬取

 

需求:

1,获取所有的城市URL

2,获取所有城市》新房URL

3,获取所有城市》二手房URL

代码逻辑:

》》基本创建,start.py启动文件

from scrapy import cmdline

cmdline.execute("scrapy crawl sfw".split())

》》middlewares.py  -->随机请求头中间件

》》spiders-->fang6.py

  #允许爬取的域名范围

allowed_domains = ['fang.com']

(1)def  A(self,response):

       获取所有地区名、链接

(2)def  B(self,response):

      获取地区--新房--名字、价格等所有数据

(3)def  C(self,response):  

  获取地区--2手房--名字、价格等所有数据

》》items-->fang6.py连接,

》》items: 写要爬取范围名称

      fang6:导入items.py,调用
           

from fang.items import (class)

   item = NewHouseItem(name=name,rooms=rooms)

 

》》pipelines-->数据存储

def __init__(self):

def process_item(self, item, spider):

def close_spider(self):

》》

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值