Scrapy入门教程

最新推荐文章于 2024-04-22 15:42:39 发布

knight_qzc

最新推荐文章于 2024-04-22 15:42:39 发布

阅读量1.1k

点赞数

分类专栏： linux python

本文链接：https://blog.csdn.net/QZC295919009/article/details/42396503

版权

linux 同时被 2 个专栏收录

44 篇文章 0 订阅

订阅专栏

python

37 篇文章 0 订阅

订阅专栏

1.新建工程：Domz为工程名

scrapy startproject Domz

生成的目录Domz的结构：

dmoz/
   scrapy.cfg   
   dmoz/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py

scrapy.cfg: 项目配置文件
items.py: 需要提取的数据结构定义文件
pipelines.py: 管道定义，用来对items里面提取的数据做进一步处理，如保存等
settings.py: 爬虫配置文件
spiders: 放置spider的目录

2.先写个简单的爬虫

实现Spider----spiders文件夹下写Python文件

spider只是一个继承字scrapy.spider.BaseSpider的Python类，有三个必需的定义的成员

name: 名字，这个spider的标识
start_urls: 一个url列表，spider从这些网页开始抓取
parse(): 一个方法，当start_urls里面的网页抓取下来之后需要调用这个方法解析网页内容，同时需要返回下一个需要抓取的网页，或者返回items列表

所以在spiders目录下新建一个spider，dmoz_spider.py:

class DmozSpider(BaseSpider):
   name = "dmoz"
   start_urls = [
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]
 
   def parse(self, response):
       filename = response.url.split("/")[-2]
       open(filename, 'wb').write(response.body)

写完保存退出后，运行

scrapy runspider domz_spider.py

或者

scrapy crawl dmoz

会出现类似输出

T:\tutorial>scrapy crawl dmoz
2012-07-13 19:14:45+0800 [scrapy] INFO: Scrapy 0.14.4 started (bot: tutorial)
2012-07-13 19:14:45+0800 [scrapy] DEBUG: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState
2012-07-13 19:14:45+0800 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpCompressionMiddleware, ChunkedTransferMiddleware, DownloaderStats
2012-07-13 19:14:45+0800 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2012-07-13 19:14:45+0800 [scrapy] DEBUG: Enabled item pipelines:
2012-07-13 19:14:45+0800 [dmoz] INFO: Spider opened
2012-07-13 19:14:45+0800 [dmoz] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2012-07-13 19:14:45+0800 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023
2012-07-13 19:14:45+0800 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080
2012-07-13 19:14:46+0800 [dmoz] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2012-07-13 19:14:46+0800 [dmoz] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2012-07-13 19:14:46+0800 [dmoz] INFO: Closing spider (finished)
2012-07-13 19:14:46+0800 [dmoz] INFO: Dumping spider stats:
        {'downloader/request_bytes': 486,
         'downloader/request_count': 2,
         'downloader/request_method_count/GET': 2,
         'downloader/response_bytes': 13063,
         'downloader/response_count': 2,
         'downloader/response_status_count/200': 2,
         'finish_reason': 'finished',
         'finish_time': datetime.datetime(2012, 7, 13, 11, 14, 46, 703000),
         'scheduler/memory_enqueued': 2,
         'start_time': datetime.datetime(2012, 7, 13, 11, 14, 45, 500000)}
2012-07-13 19:14:46+0800 [dmoz] INFO: Spider closed (finished)
2012-07-13 19:14:46+0800 [scrapy] INFO: Dumping global stats:
        {}

之后会发现生成了

Books 和Resources 这2个文件

3.解析抓出的数据

3.1定义Item ——写Item.py

Items是将要装载抓取的数据的容器，它工作方式像python里面的字典，但它提供更多的保护，比如对未定义的字段填充以防止拼写错误。

它通过创建一个scrapy.item.Item类来声明，定义它的属性为scrpy.item.Field对象，就像是一个对象关系映射(ORM).
我们通过将需要的item模型化，来控制从dmoz.org获得的站点数据，比如我们要获得站点的名字，url和网站描述，我们定义这三种属性的域。要做到这点，我们编辑在tutorial目录下的items.py文件，我们的Item类将会是这样

from scrapy.item import Item, Field 
class DmozItem(Item):
    title = Field()
    link = Field()
    desc = Field()

刚开始看起来可能会有些困惑，但是定义这些item能让你用其他Scrapy组件的时候知道你的 items到底是什么。

提取Item ——修改spiders下的Python文件

提取数据到Items里面，主要用到XPath提取网页数据：

scrapy有提供两个XPath选择器，HtmlXPathSelector和XmlXPathSelector，一个用于HTML，一个用于XML，XPath选择器有三个方法

select(xpath): 返回一个相对于当前选中节点的选择器列表（一个XPath可能选到多个节点）
extract(): 返回选择器（列表）对应的节点的字符串（列表）
re(regex): 返回正则表达式匹配的字符串（分组匹配）列表
一种很好的方法是在Shell里面对XPath进行测试：

1	`scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/`

现在修改parse()方法看看如何提取数据到items里面去：

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from Dmoz.items import DmozItem
class DmozSpider(BaseSpider):

   name = "dmoz"
   allowed_domains = ["dmoz.org"]
   start_urls = [
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]
   def parse(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select('//ul/li')
       items = []
       for site in sites:
           item = DmozItem()
           item['title'] = site.select('a/text()').extract()
           item['link'] = site.select('a/@href').extract()
           item['desc'] = site.select('text()').extract()
           items.append(item)
       return items

4.保存抓取的数据

实现PipeLine ———写pipelines.py文件

PipeLine用来对Spider返回的Item列表进行保存操作，可以写入到文件、或者数据库等。

PipeLine只有一个需要实现的方法：process_item，例如我们将Item保存到一个文件中：

def __init__(self):
    self.file = open('jingdong.txt', 'wb')
 
def process_item(self, item, spider):
    self.file.write(item['title'] + '\t'+ item['link'] + '\t' + item['desc']+'\n')

到现在，我们就完成了一个基本的爬虫的实现，可以输入下面的命令来启动这个Spider:

1	`scrapy crawl dmoz`

knight_qzc

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy入门教程

1.新建工程：Domz为工程名scrapy startproject Domz生成的目录Domz的结构：dmoz/ scrapy.cfg dmoz/ __init__.py items.py pipelines.py settings.py spiders/ __ini
复制链接

扫一扫