爬虫实例5:使用scrapy框架获取链家网二手房最新信息(获取单个城市所有街区二手房信息可以使用selenium动态获取页数)

1-首先进行分析链家网 链家网址:https://www.lianjia.com/city/ 获取省市

在这里插入图片描述

2-创建文件 打开虚拟机或者powershell 执行命令scrapy startproject LianJia

在这里插入图片描述

3-通过使用vscode或者pycharm找到创建的文件夹 如果是使用虚拟机创建文件夹 需要download下载在本地pycharm 这里我使用的是vscode 创建文件在powershell 中进行 在vscode显示如图

在这里插入图片描述

4-接下来就是对各个.py文件进行操作

(1)首先对settings.py文件中将ROBOTSTXT_OBEY = True改为ROBOTSTXT_OBEY = False

在这里插入图片描述

(2)接下来在items.py中构建需要的字段值

在这里插入图片描述

import scrapy


class LianjiaItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    _id = scrapy.Field()  #id值 这个在mongoDB 数据库中作为独一无二的序号
    province = scrapy.Field() #省
    city = scrapy.Field() #市
    block = scrapy.Field() #区
    loc = scrapy.Field() # 所在区域
    room = scrapy.Field() #几室几厅
    direction = scrapy.Field() #地理位置朝向
    area = scrapy.Field() #面积
    totalprice = scrapy.Field() #总价
    HousePrice = scrapy.Field() #房价
    url = scrapy.Field() #房子链接


(3)在spiders.LJW下开始构造函数 进行对链家网的爬取

import scrapy


class LjwSpider(scrapy.Spider):
    name = 'LJW'
    allowed_domains = ['lianjia.com/'] #允许的域名  
    start_urls = ['http://lianjia.com//'] #开始的链家

    def parse(self, response):
        pass

起始打开LJW.py文件就是上面这些代码 我们需要一一修改

import scrapy


class LjwSpider(scrapy.Spider):
    name = 'LJW'
    allowed_domains = ['lianjia.com/']
    start_urls = ['https://www.lianjia.com/city/']

    def parse(self, response):
        pass

(4)接下来就不一一展示 直接进行代码的操作

# -*- coding: utf-8 -*-
import scrapy
from LianJia.items import LianjiaItem
import math
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值