scrapy的name变量_浅谈Scrapy爬虫(一)

本文介绍了Scrapy爬虫的基础知识,包括安装、项目创建及构建第一个蜘蛛。强调了name变量的重要性,它是启动爬虫时的标识,并通过一个简单的示例展示了如何使用name和start_urls来抓取网页内容。此外,还提到了parse函数的迭代器特性,及其返回Item和Request对象的不同处理方式。
摘要由CSDN通过智能技术生成

以下谈论的 scrapy 基于 0.20.2 版本(当前最新版本是 0.22.0 ),python 2.7.6。

开发环境是windows 7 sp1。

互联网上比较有价值的参考资料

对官网文档的翻译,主要讲了 scrapy 的基本使用。创建一个工程,使用 item 和 spider 。我们会简单涉及到官方教程的内容。

这篇文章并未涉及到代码细节,介绍了一些使用 scrapy 的经验,用的是较老的0.9版本。我们会对该文章涉及到的内容简单展开。

一 安装 scrapy

因为不同的版本 scrapy 依赖库变换很大,网上的安装教程版本太老,所以我的建议是直接安装 scrapy ,运行 scrapy 时 python 打印的错误可以看出是缺少了哪个库,缺了哪个安装哪个。

安装 scrapy 后 会多出 python/Scripts 目录,记得添加到环境变量,这样才能直接在命令行使用“scrapy”命令。

二 创建项目

在命令行运行 “scrapy startproject 项目名”可以直接在当前目录创建 scrapy 工程。

工程目录会有如下文件:

scrapy.cfg

配置文件,开发中基本用不到。

ajian\item.py

这里主要处理递归爬取和返回页面数据。

ajian\pipelines.py

返回的数据会传到这里,进行下一步处理。存储到数据库或者进行分析,随你喜欢。

ajian\settings.py

设置文件,有很多有趣的设置,比如是深度还是广度爬,对每个IP的爬虫数,每个域名的爬虫数,总爬虫数&

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值