scrapy爬虫框架抓取北京链家二手房100页信息,先抓列表页,再抓详情页,入坑必看~

本文详细记录了使用Python的scrapy框架爬取链家北京二手房前100页信息的过程,包括创建项目、分析网站源码、编写spider、设置settings、实现CSV输出及遇到的问题。最终成功抓取数据并保存至CSV文件。
摘要由CSDN通过智能技术生成

磕磕绊绊,爬了很多次,尝试了很多次,翻阅了很多前辈的文章,在摸索中终于实现了,接下来我将详细记录我的思路,以及详细的代码,截止目前2020年7月18日,是可以正常爬取的,接下来请听我唠叨喽~

 

基于python的scrapy框架完成的本项目,想要跑通首先呢你得安装好python环境,搭建python环境,在本文章就不做详细描述,直接入手吧!

安装scrapy框架,一般你网速还好就可以直接安装成功!

pip install scrapy

明确一下我们的需求:

  1. 爬取链家北京二手房前100页数据
  2. 分析爬取链接,为后面分页做准备
  3. 分析网页源码
  4. 需要爬取哪些数据

需要爬取的链接如下:

  1. https://bj.lianjia.com/ershoufang/ 首页链接
  2. https://bj.lianjia.com/ershoufang/pg2/ 第二页
  3. https://bj.lianjia.com/ershoufang/pg3/ 第三页

通过对比爬取链接,我们发现前面的链接基本上都相同,唯一不同的是最后的数字,最后的数字代表哪一页,明确了这些我们就可以着手创建scrapy项目

创建项目

scrapy startproject lianjia # 创建一个名为 lianjia的爬虫项目

cd lianjia # 进入刚创建的项目

scrapy genspider lianjia_spider bj.lianjia.com # 创建lianjia的spider

分析网站源码

发现列表页里面需要的数据都是在li标签里,继续往下分析,因为咱们本项目的爬取思路是爬标题,获取到标题里面的链接,然后进详情页继续爬取数据,通过定位找到详情页的入口,咱们继续往下走,进入详情页。

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值