Python网络爬虫从入门到实践 内容简介
本书将介绍如何使用Python编写网络爬虫程序获取互联网上的大数据。本书包括三部分内容:基础部分、进阶部分和项目实践。基础部分(第1~6章)主要介绍爬虫的三个步骤(获取网页、解析网页和存储数据),并通过诸多示例的讲解,让读者从基础内容开始系统性地学习爬虫技术,并在实践中提升Python爬虫水平。进阶部分(第7~12章)包括多线程的并发和并行爬虫、分布式爬虫、更换IP等,帮助读者进一步提升爬虫水平。项目实践部分(第13~16章)使用本书介绍的爬虫技术对几个真实的网站进行抓取,让读者能在读完本书后根据自己的需求写出爬虫程序。无论是否有编程基础,只要是对爬虫技术感兴趣的读者,本书就能带领读者从入门到进阶,再到实战,一步步了解爬虫,终写出自己的爬虫程序。
Python网络爬虫从入门到实践 目录
推荐序
推荐序二
前言
前言二
第1章网络爬虫入门
1.1为什么要学网络爬虫
1.1.1 网络爬虫能带来什么好处
1.1.2能从网络上爬取什么数据
1.1.3应不应该学爬虫
1.2网络爬虫是否合法
1.2.1 Robots协议
1.2.2 网络爬虫的约束
1.3网络爬虫的基本议题
1.3.1 Python爬虫的流程
1.3.2三个流程的技术实现
2章编写第一个网络爬虫
2.1搭建Python平台
2.1.1 Python的安装
2.1.2使用pip安装第三方库
2.1.3使用编译器Jupyter编程
2.2 Python使用入门
2.2.1基本命令
2.2.2数据类型
2.2.3条件语句和循环语句
2.2.4函数
2.2.5面向对象编程
2.3编写第一个简单的爬虫
第3章静态网页抓取
第4章动态网页抓取
第5章解析网页
第6章数据存储
第7章提升爬虫的速度
第8章反爬虫问题
第9章解决中文乱码
第10章登录与验证码处理
第11章服务器采集
第12章分布式爬虫
第13章爬虫实践一:维基百科
第14章爬虫实践二:知乎Live
第15章爬虫实践三:百度地图API
第16章爬虫实践四:餐厅点评
Python网络爬虫从入门到实践 精彩文摘
爬虫程序是DT(Data Technology,数据技术)收集信息的基础,程序员爬取目标网站的资料后,就可以分析和建立应用了。我们关心的是科技如何给人家';#:
来实效,进而实现目标和理想,不能应用的技术称为魔术,JI能用J:表演。我们十分关注读者能否把握爬虫概念,所以相关的技术结合不同的实例讲解,希望能指导读者完成整个数据采集的流程。
Python是一个简单、有效的语言,爬虫所需的获取、存储、整理等流程都可以使用Python系统地实现。此外,绝大部分计算机也町以直接使用Python语言或简单地安装Python系统,相信读者一定能轻松地把Python作为爬虫的主要技术。
动心者,当具有大本大源DT的核心是从信息的源头去理解和分析,以做出能打动对方的行动决策力+案。由谷歌搜索到现在的大数据时代,爬虫技术的莺要性和广泛性‘直很突出。
程序员理解了信息的获取、存储和整理各方面的基本关系,才有可能系统地收集和应用不同源头和千变万化的网站信息。
剡居共享程序员要建立共利的互联网环境,不能把爬虫作为窃取数据的J_|.具,爬虫必须在合情、合法、合理的情况下获取和应用。尊重数据供应者的知识产:权利正常运作才能产生长久共利的环境。保障对方平台的正常运作是每个程序员都应当做到的,因此我们把爬虫的制约放在本书的第1章讨论。
自强不息
互联网科技不断更新和进步,网站信息也随之不断改变。爬虫的乐趣在于如何一直高效率、持续不断地从日新月异的网站中获取信息。另外,程序员要不断学习新技术,自我提高,这样在爬虫的过程中才能够理解互联网的运作和结构。最后,感谢好友唐松给予我一起创作这本书的机会,让我可以分享爬虫技术和当中的乐趣。 陈智铨 思路富邦智能应用有限公司行政总裁!
近年来,大数据成为业界与学术界最火热的话题之一,数据已经成为每个公司极为重要的资产。互联网大量的公开数据为个人和公司提供了以往想象不到的可以获取的数据量。而掌握网络爬虫技术可以帮助你获取这些有用的公开数据集。
执笔本书的起因是我打算在知乎上写博客向香港中文大学市场营销学的研究生讲解Python网络爬虫技术,让这些商科学生掌握一些大数据时代重要的技术能力。因此,本书除了面向技术人员外,还面向不懂编程的小白。本书尽量做到浅显易懂,希望能够将网络爬虫学习的门槛降低,让大家都能享受到使用网络爬虫编程的乐趣。
我是从商科自学转到数据科学的,因此编程和数据挖掘能力都是上网自学的。在这个过程中,我深刻地体会到,与不知所云的教学相比,深入浅出的教学对学习效率有很大提升。因此,学习知识最重要的两点是,通过富有逻辑的框架解构学习和通过实战解决实际问题,从而增强学习效果。本书的内容侧重于将网络爬虫技术进行框架性的解构,并使用代码将爬虫技术应用于抓取真实的网站。
本书主要分为三部分:基础部分(第1~6章)、进阶部分(第7~12章)和项目实践部分(第13~16章),以此来针对不同类型的读者。如果你是Python爬虫的初学者,那么可以先学习基础部分,这部分每一章的最后都有自我实践题,读者可以通过实践题熟悉编写Python爬虫代码。如果你已经对Python爬虫有所了解,但是在实践中遇到了各种问题,那么可以直接学习进阶部分,这部分为你在爬虫实践中遇到的问题提供了解决方案。本书最后的项目实践部分是让你在学习Python爬虫后,可以通过在真实网站中练习来消化和吸收Python爬虫的知识。