python爬虫翻页_Scrapy爬虫案例01——翻页爬取

这篇博客介绍了如何使用Scrapy框架创建一个翻页爬虫,从freebuf.com抓取文章标题、日期、URL和标签。首先,博主展示了如何安装Scrapy,然后通过创建项目、编写爬虫代码,包括解析页面、获取翻页链接和处理数据。在items.py中定义了数据结构,settings.py中设置了下载延迟以避免过于频繁的请求。最后,博主展示了如何运行爬虫并保存数据到CSV文件。
摘要由CSDN通过智能技术生成

之前用python写爬虫,都是自己用requests库请求,beautifulsoup(pyquery、lxml等)解析。没有用过高大上的框架。早就听说过Scrapy,一直想研究一下。下面记录一下我学习使用Scrapy的系列代码及笔记。

安装

Scrapy的安装很简单,官方文档也有详细的说明 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/install.html 。这里不详细说明了。

创建工程

我是用的是pycharm开发,打开pycharm,然后在下面的“Terminal”中输入命令“scrapy startproject freebuf”。这句话是在你的工作空间中创建一个叫“freebuf”的scrapy工程。如下图:

515484-20161220172251151-1890603080.png

上图中,因为我的工作空间中已经存在“freebuf”所以第一次创建失败,这里我创建的名字为"freebuf2",创建成功。freebuf2的目录及说明如下:

515484-20161220172722370-1324874364.png

编写爬虫

freebuf2Spider.py

选中“spiders”文件夹,右键“NEW”->"Python File",输入文件名“fr

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值