python爬取链家_python+scrapy爬虫（爬取链家的二手房信息）

最新推荐文章于 2024-08-13 21:38:27 发布

weixin_29179583

最新推荐文章于 2024-08-13 21:38:27 发布

阅读量1k

点赞数

文章标签： python爬取链家

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29179583/article/details/113672502

版权

本文介绍如何利用Python的Scrapy框架爬取成都链家网站的二手房信息，包括小区名、描述、楼层、价格等，并将数据存储到MySQL数据库中。详细讲解了项目创建、items定义、爬虫编写、数据处理pipeline以及数据库配置和运行过程。

摘要由CSDN通过智能技术生成

之前用过selenium和request爬取数据，但是感觉速度慢，然后看了下scrapy教程，准备用这个框架爬取试一下。

1、目的：通过爬取成都链家的二手房信息，主要包含小区名，小区周边环境，小区楼层以及价格等信息。并且把这些信息写入mysql。

2、环境：scrapy1.5.1 +python3.6

3、创建项目：创建scrapy项目，在项目路径执行命令：scrapy startproject LianJiaScrapy

4、项目路径：(其中run.py新加的，run.py是在eclipse里面启动scrapy项目，方便调试的)

这些文件分别是：

scrapy.cfg:项目的配置文件

LianJiaScrapy:该项目的python模块。之后您将在此加入代码。

LianJiaScrapy/items.py:项目中的item文件，设置对应的参数名，把抓取的数据存到对应的字段里面。(类似字典来存数据，然后可提供给后面的pipelines.py处理数据)

LianJiaScrapy/pipelines.py:项目中的pipelines文件,抓取后的数据通过这个文件进行处理。(比如我把数据写到数据库里面就是在这里操作的)

LianJiaScrapy/spiders/：放置spider代码的目录。(数据抓取的过程，并且把抓取的数据和items的数据一一对应)

5、创建爬虫的主文件：cmd进入到主目录，输入命令：scrapy genspider lianjia_spider，查看spiders目录下，新建了一个lianjia_spider.py

6、items.py编写：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

from scrapy import Field, Item

class ScrapylianjiaItem(Item):

'''

houseName:小区楼盘

description:房子描述

floor:此条信息的关注度和发布时间

positionIcon:房子所属区

followInfo:楼层信息

subway:是否临近地铁

taxfree:是否有税

haskey:是否随时看房

totalPrice:总价

unitPrice：单价

'''

houseName = Field()

description = Field()

floor = Field()

positionIcon = Field()

followInfo = Field()

subway = Field()

taxfree = Field()

haskey = Field()

totalPrice = Field()

unitPrice = Field()

7、爬虫文件lianjia_spider.py编写

# -*- coding: utf-8 -*-

&#

最低0.47元/天解锁文章

weixin_29179583

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。