用Python写网络爬虫

最新推荐文章于 2024-07-15 13:44:00 发布

卡图卢斯

最新推荐文章于 2024-07-15 13:44:00 发布

阅读量766

点赞数

分类专栏： Python

Python 专栏收录该内容

55 篇文章 2 订阅

订阅专栏

声明：纯属个人笔记，如有侵权请私信删除。
[澳]Richard Lawson 著李斌译

前言:

本书内容：
1.网络爬虫的简介，介绍了网络爬虫，并讲解了爬取网站的方法。
2.数据抓取，展示了如何从网页中抓取数据，页面抓取数据的三种方法。
3.下载缓存，学习了如何通过缓存结果避免重复下载的问题，提取缓存中的数据。
4.并发下载，通过并发下载加速数据抓取，使用多线程和进程进行并发抓取。
5.动态内容，展示了如何在动态网站中抽取数据。
6.表单交互，展示了如何与表单进行交互，从而访问你需要的数据。
7.验证码处理，阐述了如何访问被验证码图形保护的数据。
8. Scrapy，学习了如何使用流行的的高级框架Scrapy，使用Scarpy和Porita来进行数据抓取。
9.总结，对我们介绍的这些网络爬虫技术进行总结，介绍的数据抓取技术进行几个真实的网站进行抓取。

阅读本书的前提：
本书的所有代码都在Python2.7环境中测试，并且可以从http://bitbucket.org/wswp/code下载源代码。为了帮助阐明爬虫提示例，实例网站：http:/example.webscraping.com。由于该网站限制了下载的速度，因此如果你希望自行搭建实例网站，可以从http://bitbucket.org/wswp/places获取网站源代码和安装说明。

本书读者：
初学者Python书籍网址：http://www.diveintopython.net。
这些例子假设你已经了解网页如何使用HTML进行构建并通过JavaScript更新的知识。关于HTTP、CSS、AJAX、WebKit以及MongDB的既有知识也很有用。不过它们不是必需的。这些技术会在需要使用时进行介绍。上述很多主题的详细参考资料可以从http://www.w3schools.com获取到。

用Python写网络爬虫

前言:

目录