scrapy爬虫框架抓取北京链家二手房100页信息，先抓列表页，再抓详情页，入坑必看~

最新推荐文章于 2023-04-22 19:35:13 发布

置顶

冰先生

最新推荐文章于 2023-04-22 19:35:13 发布

阅读量946

点赞数 2

分类专栏： python 文章标签： python 大数据

本文链接：https://blog.csdn.net/weixin_36232887/article/details/107426871

版权

本文详细记录了使用Python的scrapy框架爬取链家北京二手房前100页信息的过程，包括创建项目、分析网站源码、编写spider、设置settings、实现CSV输出及遇到的问题。最终成功抓取数据并保存至CSV文件。

摘要由CSDN通过智能技术生成

基于python的scrapy框架完成的本项目，想要跑通首先呢你得安装好python环境，搭建python环境，在本文章就不做详细描述，直接入手吧！

安装scrapy框架，一般你网速还好就可以直接安装成功！

pip install scrapy

明确一下我们的需求：

需要爬取的链接如下：

通过对比爬取链接，我们发现前面的链接基本上都相同，唯一不同的是最后的数字，最后的数字代表哪一页，明确了这些我们就可以着手创建scrapy项目

scrapy startproject lianjia # 创建一个名为 lianjia的爬虫项目

cd lianjia # 进入刚创建的项目

scrapy genspider lianjia_spider bj.lianjia.com # 创建lianjia的spider

发现列表页里面需要的数据都是在li标签里，继续往下分析，因为咱们本项目的爬取思路是爬标题，获取到标题里面的链接，然后进详情页继续爬取数据，通过定位找到详情页的入口，咱们继续往下走，进入详情页。

关注