采用Scrapy框架爬取链家二手房数据

最新推荐文章于 2023-01-03 23:44:44 发布

colorful_daisy

最新推荐文章于 2023-01-03 23:44:44 发布

阅读量1k

点赞数

文章标签： scrapy 爬虫

本文链接：https://blog.csdn.net/hui_891/article/details/103239447

版权

本文介绍如何利用Scrapy框架进行网络爬虫，详细解析了项目的文件夹结构，包括items定义数据结构，pipelines处理爬取数据，settings配置项，以及最终的数据结果。

摘要由CSDN通过智能技术生成

文件夹结构

1.items

import scrapy
class LianjiaItem(scrapy.Item):
    # define the fields for your item here like:
    # 房屋名称
    name = scrapy.Field()
    # 房屋户型
    type = scrapy.Field()
    # 建筑面积
    area = scrapy.Field()
    # 房屋朝向
    direction = scrapy.Field()
    # 装修情况
    fitment = scrapy.Field()
    # 有无电梯
    elevator = scrapy.Field()
    # 房屋总价
    total_price = scrapy.Field()
    # 房屋单价
    unit_price = scrapy.Field()
    # 房屋产权
    property = scrapy.Field()

lianjia_spider

import scrapy
from scrapy import Request
from lianjia.items import LianjiaItem
import sys
reload(sys)
sys.setdefaultencoding('utf8')

class LianjiaSpiderSpider(scrapy.Spider):
   name = 'lianjia_spider'
   # 获取初始请求
   def start_requests(self):
       # 生成请求对象
       url =