需求:
1,获取所有的城市URL
2,获取所有城市》新房URL
3,获取所有城市》二手房URL
代码逻辑:
》》基本创建,start.py启动文件
from scrapy import cmdline
cmdline.execute("scrapy crawl sfw".split())
》》middlewares.py -->随机请求头中间件
》》spiders-->fang6.py
#允许爬取的域名范围
allowed_domains = ['fang.com']
(1)def A(self,response):
获取所有地区名、链接
(2)def B(self,response):
获取地区--新房--名字、价格等所有数据
(3)def C(self,response):
获取地区--2手房--名字、价格等所有数据
》》items-->fang6.py连接,
》》items: 写要爬取范围名称
fang6:导入items.py,调用
from fang.items import (class)
item = NewHouseItem(name=name,rooms=rooms)
》》pipelines-->数据存储
def __init__(self):
def process_item(self, item, spider):
def close_spider(self):
》》