![c8a88098cbcd103f92b4c852cf78208f.png](https://i-blog.csdnimg.cn/blog_migrate/34161725032ac5a7ba3329b804055acb.jpeg)
Scrapy 2.2.0 发布了。Scrapy 是一套基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。
此版本主要更新亮点包括:
- 要求 Python 3.5.2+
- 数据类对象和属性对象现在是有效的项目类型
- 新的 TextResponse.json 方法
- 新的 bytes_received 信号允许允许取消响应下载
- CookiesMiddleware 修复
详情查看更新说明: https://github.com/scrapy/scrapy/releases/tag/2.2.0
Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~
示例代码:
$pip install scrapy$cat > myspider.py < a ::attr(href)').extract_first() if next_page: yield scrapy.Request(response.urljoin(next_page), callback=self.parse)EOF$scrapy runspider myspider.py