python第三方爬虫开源库scrapy学习笔记

最新推荐文章于 2024-06-09 09:30:47 发布

置顶 5t4rk

最新推荐文章于 2024-06-09 09:30:47 发布

阅读量2.3k

点赞数

分类专栏：技术文章 python学习学习笔记资源共享网络安全与恶意代码文章标签： python 爬虫开源数据挖掘数据

本文链接：https://blog.csdn.net/microzone/article/details/51501495

版权

技术文章同时被 3 个专栏收录

115 篇文章 3 订阅

订阅专栏

网络安全与恶意代码

85 篇文章 14 订阅

订阅专栏

资源共享

50 篇文章 0 订阅

订阅专栏

官方下载地址

Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

//安装教程很简单，我采用PIP命令安装

pip install scrapy

或者直接下载对应系统平台和python对应版本，安装即可（不会的自行百度）

我在windows 平台运行提示缺少import win32api库。记得自己没有下载这个安装。

Python for Windows Extensions

官方下载地址

本次测试抓取python官方第三方库插件列表，其它网站类似，关键在于自行分析匹配规则。

//代码不多就这几十行

#test ok
import scrapy
class PypiPythonSpider(scrapy.Spider):

    name = "python-demo"
    allowed_domains = ["python.org"]
    start_urls = ["https://pypi.python.org/pypi"]
  
    def parse(self, response):
        for sel in response.xpath('//tr[@class]').extract():
            #sel.xpath('//td//@href').extract()
            print'item \n'     
            yield {"info1": sel}

抓取格式如这样列表

example:
https://pypi.python.org/pypi

<tr class="even">
<td style="white-space: nowrap; text-align: center;">2016-05-25</td>
<td><a href="/pypi/django-rescuests/0.2.3">django-rescuests\xa00.2.3</a></td>
<td>A framework sending, tracking and retrying REST requests in Django.</td>
</tr>

匹配规则，采用xpath样式选择器帅选。

也可以支持文件导出，参数比较多，自行学习。

scrapy runspideer main.py --outfile file

包括详细输出日志和记录

5t4rk

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录