用Python写网络爬虫

声明:纯属个人笔记,如有侵权请私信删除。
[澳]Richard Lawson 著 李斌 译


前言:

本书内容:
1.网络爬虫的简介,介绍了网络爬虫,并讲解了爬取网站的方法。
2.数据抓取,展示了如何从网页中抓取数据,页面抓取数据的三种方法。
3.下载缓存,学习了如何通过缓存结果避免重复下载的问题,提取缓存中的数据。
4.并发下载,通过并发下载加速数据抓取,使用多线程和进程进行并发抓取。
5.动态内容,展示了如何在动态网站中抽取数据。
6.表单交互,展示了如何与表单进行交互,从而访问你需要的数据。
7.验证码处理,阐述了如何访问被验证码图形保护的数据。
8. Scrapy,学习了如何使用流行的的高级框架Scrapy,使用Scarpy和Porita来进行数据抓取。
9.总结,对我们介绍的这些网络爬虫技术进行总结,介绍的数据抓取技术进行几个真实的网站进行抓取。

阅读本书的前提:
本书的所有代码都在Python2.7环境中测试,并且可以从http://bitbucket.org/wswp/code下载源代码。为了帮助阐明爬虫提示例,实例网站:http:/example.webscraping.com。由于该网站限制了下载的速度,因此如果你希望自行搭建实例网站,可以从http://bitbucket.org/wswp/places获取网站源代码和安装说明。

本书读者:
初学者Python书籍网址:http://www.diveintopython.net
这些例子假设你已经了解网页如何使用HTML进行构建并通过JavaScript更新的知识。关于HTTP、CSS、AJAX、WebKit以及MongDB的既有知识也很有用。不过它们不是必需的。这些技术会在需要使用时进行介绍。上述很多主题的详细参考资料可以从http://www.w3schools.com获取到。


目录

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值