如何爬取链家小区成交数据——Ruia异步爬虫框架笔记

本文介绍了利用Ruia异步爬虫框架抓取链家网站上海浦东地区小区成交数据的过程。首先,通过Anaconda安装Python环境,接着部署mongo数据库。然后,通过pip安装ruia和motor库。在代码实现中,继承ruia的Spider类,使用css_select和xpath_select解析页面元素,将数据存储到MongoDB。最后,展示了如何在Mongo Compass中查看和过滤数据,如建成年份和商圈位置。
摘要由CSDN通过智能技术生成

Ruia是一个基于asyncio和aiohttp的异步爬虫框架,它的目标是让你更加方便且迅速地编写出属于自己的爬虫。编写的方式与Scrapy十分相似,同时支持Xpath和CssSelector等多种页面解析方式,易于上手。作者的Github与知乎首页可以进去交流学习。

  • github:

    https://github.com/howie6879/ruia

  • 知乎:

    https://www.zhihu.com/people/howie6879

01

Python环境安装

  1. 下载安装Anaconda镜像,国内推荐清华大学的镜像地址,选择下载Python 3.7版本,镜像地址: 

    https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 

  2. 安装mongo数据库,这里推荐一个教程,可以将mongo注册成windows服务。教程地址:

    https://www.runoob.com/mongodb/mongodb-window-install.html

  3. 安装ruia,pip install -U ruia

  4. 安装motor,pip install -U motor

  5. </
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值