用scrapy数据抓取实践

最新推荐文章于 2023-11-08 14:10:16 发布

w97531

最新推荐文章于 2023-11-08 14:10:16 发布

阅读量212

点赞数

文章标签：数据挖掘网易云

本文链接：https://blog.csdn.net/w97531/article/details/82767052

版权

本文来自网易云社区

作者：沈高峰

数据分析中需要用到的不少数据都是需要进行抓取的，并且需要对抓取的数据进行解析之后存入数据库。
scrapy是一个强大的爬虫框架，本文简单介绍下使用scrapy进行垂直抓取的实践。
scrapy整体构架如下图所示，进行简单网页抓取时，仅仅需要填充Spider和Item Pipeline部分代码就可以了，其他内容，scrapy都会自动处理好。
eeb78827-0d1f-4deb-836d-0a697a3d1c33

安装完scrapy之后，通过下面几条简单的命令就可以生成一个爬虫了。
scrapy startproject xy3
cd xy3/
scrapy genspider dhxy3 xy3.netease.com
整个工程的目录结构如下：
├── scrapy.cfg                   #工程信息
└── xy3
    ├── __init__.py
    ├── items.py                 #需要解析出来的内容
    ├── pipelines.py             #处理解析出来的items
    ├── settings.py              #爬虫的设置内容
    └── spiders
        ├── dhxy3.py             #解析内容，生成新的请求规则的蜘蛛
        └── __init__.py

接下来往工程里面填充内容就可以了。
简单的来说，spider的作用就是生成scrapy.Request、scrapy.Item对象。
在scrapy.Request中定义回调函数来处理Responses，通过在settings中定义pipelines来处理scrapy.Item。

下面是一个简单的抓取实例，cd到有 xy3.db 的目录下（xy3/xy3）,然后执行 scrapy crawl dhxy3 就可以进行数据的抓取了。
效果就是将http://xy3.netease.com 这个论坛的列表中的作者和标题字段抓出来，然后存放到sqlite数据库中。