Scrapy研究探索(一)——基础入门

一.Scrapy介绍


经常发现使用python编写爬虫的相关文章,可以使用urllib2便可以简单的实现,当然如果涉及到更进阶的东西比如爬取时的网站认证、内容的分析处理、重复抓取、分布式爬取等等也时间很复杂的事。所以实现一个鲁棒,功能丰富的爬虫也并不是容易的事。


本着不重复造轮子的原则,在google上或通过GitHub可以检索到相关并成熟的针对网站爬取的框架,Scrapy就是最著名并被广泛认可与使用的框架之一,源码托管在GitHub上(https://github.com/scrapy/scrapy),官网(http://scrapy.org)。


官方描述:Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing。


官方文档对其详细描述:

“Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。”


二.知识准备以及相关资料

看完介绍便可以确定你对它是否存在需求。笔者也是对网络爬虫感兴趣,慢慢接触Scrapy并决定写一系列教程。关于爬虫学习曲线,曾经在知乎上发现一篇文章,现转载过来:

地址:http://www.zhihu.com/question/20899988 作者:谢科   问题:Python 爬虫如何入门学习?

  • 3
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值