《Learning Scrapy》0 作者简介 序言

作者简介

Dimitris Kouzis – Loukas有超过15年的软件开发经历。同时他也参与到教学活动中,受众广泛。

他精通数个领域,包括数学、物理和微电子。对这些学科的理解帮助他提高了水准,超越了软件的“实用方案”。他认为,好的解决方案应该像物理学一样确定,像纠错内存一样拥有健壮性,并且像数学原理一样具有通用性。

Dimitris现在正在使用最新的数据中心技术,着手开发分布式、低延迟、高可用性的系统。他运用多个编程语言,但更偏爱Python、C++和Java。作为开源软硬件的坚定支持者,他希望对独立开发群体和整个人类做出贡献。

审稿人简介

Lazar Telebak是一名网络开发自由从业者,专精于网络抓取和利用Python库和框架进行网页索引。

他的主要工作涉及自动化、网络抓取和数据导出,导出为CSV、JSON、XML和TXT等多种格式,或是导出到MongoDB、SQLAlchemy和Postgres等数据库。

他还会使用网络前端技术:HTML、CSS、JS和Jquery。



序言

让我大胆猜一下,下面两个故事肯定有一个说的是你。

你第一次碰到Scrapy是在搜索“Python网络抓取”的时候。你瞟了一眼Scrapy想,“这个太复杂,我需要个简单的。”然后你就开始用requests写Python代码,在BeautifulSoup上碰到点麻烦,但最后成功了。这个程序有点慢,所以你让它昼夜不停的运行。重启了几次、忽略了一些坏链和非英文字符,早上的时候,大部分网页都存在你的硬盘里了。但是,因为一些未知的技术原因,你再也不想看这段代码了。下次你再抓取网络的时候,你直接登录scrapy.org,这次Scrapy文档看起来合理多了,感觉不用费力就可以解决所有问题。并且,Scrapy还能解决你没想到的问题。你再也不用以前的方法了。

或者,你是在做网络抓取调研时碰到的Scrapy。你需要一个可靠快速的企业级工具,毫无疑问,就是只要轻轻一击就能进行网络抓取。这个工具不仅要简单,而且可以根据不同的数据源进行灵活的定制,提供多种的数据输出方式,可以自动24/7的可靠运行。比起要价很高的提供网络抓取服务的公司,你偏向于开源的解决方案。从一开始,Scrapy就是当然的选择。

无论你是如何听说Scrapy的,我都热烈欢迎你翻开这本专门为Scrapy而写的书。Scrapy是全世界网络抓取专家的秘密武器。在专家手中,Scrapy节省了大量时间,表现出众,花费最少。如果你缺少经验,但想像这些专家一样,很可惜,Google帮不上你什么忙。网上关于Scrapy的大部分信息不是过于简化无效,就是太过复杂。对每个想获得准确、可用、规范的Scrapy知识的人,这是本必备的书。希望这本书可以扩展Scrapy社区,让Scrapy被更多人采用。


本书的内容

第1章,Scrapy介绍,向你介绍这本书和Scrapy,使你对Scrapy框架和后面章节有清醒的认识。

第2章,理解HTML和XPath,让爬虫初学者掌握基础的网页相关技术,以及后面会使用到的技术。

第3章,爬虫基础,我们会学习如何安装Scrapy和抓取网站。通过一步步搭建实例,让读者理解方法和背后的逻辑。学过这一章,你就可以抓取大部分简单站点了。

第4章,从Scrapy到移动应用,我们如何使用爬虫生成数据库和向移动应用提供数据支持。通过这一章,你会明白如何用网络抓取是获益。

第5章,快速构建爬虫,介绍更多关于爬虫的特点,模拟登陆、更快抓取、使用APIs、爬URL的方法。

第6章,Scrapinghub部署,如何将爬虫部署到Scrapinghub云服务器,以尝试更快的可用性、简易部署和操作。

第7章,配置和管理,详细介绍利用Scrapy的配置文件对爬虫进行改进。

第8章,Scrapy编程,使用底层Twisted引擎和Scrapy架构扩展爬虫功能。

第9章,如何使用Pipelines,在不明显降低性能的条件下,举例实现Scrapy连接MySQL、Elasticsearch、Redis、APIs和应用。

第10章,理解Scrapy的性能,Scrapy的工作机制,如何提高Scrapy的性能。

第11章,Scrapyd分布式抓取和实时分析,最后一章介绍如何在多台服务器中使用Scrapyd以实现水平伸缩性(horizontal scalability),并将数据传送到Apache Spark进行实时分析。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Paperback: 270 pages Publisher: Packt Publishing - ebooks Account (January 30, 2016) Language: English ISBN-10: 1784399787 ISBN-13: 978-1784399788 Key Features Extract data from any source to perform real time analytics. Full of techniques and examples to help you crawl websites and extract data within hours. A hands-on guide to web scraping and crawling with real-life problems and solutions Book Description This book covers the long awaited Scrapy v 1.0 that empowers you to extract useful data from virtually any source with very little effort. It starts off by explaining the fundamentals of Scrapy framework, followed by a thorough description of how to extract data from any source, clean it up, shape it as per your requirement using Python and 3rd party APIs. Next you will be familiarised with the process of storing the scrapped data in databases as well as search engines and performing real time analytics on them with Spark Streaming. By the end of this book, you will perfect the art of scarping data for your applications with ease What you will learn Understand HTML pages and write XPath to extract the data you need Write Scrapy spiders with simple Python and do web crawls Push your data into any database, search engine or analytics system Configure your spider to download files, images and use proxies Create efficient pipelines that shape data in precisely the form you want Use Twisted Asynchronous API to process hundreds of items concurrently Make your crawler super-fast by learning how to tune Scrapy's performance Perform large scale distributed crawls with scrapyd and scrapinghub
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值