Python网络爬虫从入门到实践 第2版
文章平均质量分 94
使用Python编写网络爬虫程序获取互联网上的大数据是当前的热门专题。内容包括三部分:基础部分、进阶部分和项目实践。基础部分(第1~7章)主要介绍爬虫的三个步骤——获取网页、解析网页和存储数据,并通过诸多示例的讲解,让读者能够从基础内容开始系统性地学习爬虫技术,并在实践中提升Python爬虫水平。
优惠券已抵扣
余额抵扣
还需支付
¥30.00
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
jxgy01
这个作者很懒,什么都没留下…
展开
-
《Python网络爬虫从入门到实践 第2版》前言
前言 近年来,大数据成为业界与学术界的热门话题之一,数据已经成为每个公司极为重要的资产。互联网上大量的公开数据为个人和公司提供了以往想象不到的可以获取的数据量,而掌握网络爬虫技术可以帮助你获取这些有用的公开数据集。 执笔本书的起因是我打算在知乎上写博客向香港中文大学市场营销学的研究生讲解Python网络爬虫技术,让这些商科学生掌握一些大数据时代重要的技术。因此,本书除了面向技术人员外,还面向不...原创 2021-07-07 16:38:44 · 414 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第1章 网络爬虫入门
第1章 网络爬虫入门 网络爬虫就是自动地从互联网上获取程序。想必你听说过这个词汇,但是又不太了解,会觉得掌握网络爬虫还是要花一些工夫的,因此这个门槛让你有点望而却步。 我常常觉得计算机和互联网的发明给人类带来了如此大的方便,让人们不用阅读说明书就能知道如何上手,但是偏偏编程的道路又是如此艰辛。因此,本书尽可能地做到浅显易懂,希望能够将网络爬虫学习的门槛降低,大家都能享受到使用网络爬虫编程的快乐...原创 2021-07-07 16:38:42 · 382 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第2章 编写第一个网络爬虫
第2章 编写第一个网络爬虫 笔者是一个喜欢学习的人,自学了各方面的知识,总结发现:学习的动力来自于兴趣,兴趣则来自于动手做出成果的快乐。因此,笔者特意将动手的乐趣提前。在第2章,读者就可以体会到通过完成一个简单的Python网络爬虫而带来的乐趣。希望这份喜悦能让你继续学习本书的其他内容。 本章主要介绍如何安装Python和编辑器Jupyter、Python的一些基础语法以及编写一个最简单的Py...原创 2021-07-07 16:38:28 · 234 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第3章 静态网页抓取
第3章 静态网页抓取 在网站设计中,纯粹HTML格式的网页通常被称为静态网页,早期的网站一般都是由静态网页制作的。在网络爬虫中,静态网页的数据比较容易获取,因为所有数据都呈现在网页的HTML代码中。相对而言,使用AJAX动态加载网页的数据不一定会出现在HTML代码中,这就给爬虫增加了困难。本章先从简单的静态网页抓取开始介绍,第4章再介绍动态网页抓取。 在静态网页抓取中,有一个强大的Reques...原创 2021-07-07 16:37:57 · 561 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第5章 解析网页
第5章 解析网页 我们已经能够使用requests库从网页把整个源代码爬取下来了,接下来需要从每个网页中提取一些数据。本章主要介绍使用3种方法提取网页中的数据,分别是正则表达式、BeautifulSoup和lxml。 3种方法各有千秋,想要快速学习的读者可以先挑选一种自己喜欢的方法学习,3种方法都能够解析网页。你也可以先阅读本章的最后一节,在了解3种方法各自的优缺点后,再选择一种方法开始学习。...原创 2021-07-07 16:37:28 · 159 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第6章 数据存储
第6章 数据存储 本章主要介绍将数据存储在文件中和存储在数据库中。当我们完成爬取网页并从网页中提取出数据后,需要把数据保存下来。本章将介绍两种保存数据的方法: (1)存储在文件中,包括TXT文件和CSV文件。 (2)存储在数据库中,包括MySQL关系数据库和MongoDB数据库。...原创 2021-07-07 16:37:08 · 115 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第7章 Scrapy框架
第7章 Scrapy框架 前面几章介绍了使用requests加BeatifulSoup工具来获取网页、解析网页、存储数据,上手比较简单,但是每个功能的代码都要自己实现。本章介绍的Scrapy是一个爬虫框架,它将上述的很多功能都封装进框架里。使用较少的代码就能完成爬虫的工作。 本章首先介绍Scrapy和Requests的对比,然后介绍如何安装Scrapy,如何使用Scrapy进行抓取,Scrap...原创 2021-07-07 16:36:48 · 141 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第8章 提升爬虫的速度
第8章 提升爬虫的速度 通过前面7章的学习,相信读者已经能够从获取网页、解析网页、存储数据来实现一些基本的爬虫了。从本章开始,我们将进入爬虫的进阶部分,包括第8章到第13章。进阶部分的各章并没有先后顺序,对某一章感兴趣的读者可以直接跳到这章学习。 本章将介绍如何提升爬虫的速度,主要有3种方法:多线程爬虫、多进程爬虫和多协程爬虫。相对于普通的单线程爬虫,使用这3种方法爬虫的速度能实现成倍的提升。...原创 2021-07-07 16:36:33 · 111 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第9章 反爬虫问题
第9章 反爬虫问题 爬虫、反爬虫和反反爬虫是网络爬虫过程中一直伴随的问题。 现实世界的网络爬虫程序并不像之前介绍的爬取博客那么简单,运行不如意者十有八九。首先需要理解一下“反爬虫”这个概念,其实就是“反对爬虫”。根据网络上的定义,网络爬虫为使用任何技术手段批量获取网站信息的一种方式。“反爬虫”就是使用任何技术手段阻止批量获取网站信息的一种方式。 本章主要介绍反爬虫问题,包括网站对爬虫实施限制...原创 2021-07-07 16:36:19 · 112 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第4章 动态网页抓取
第4章 动态网页抓取 前面爬取的网页均为静态网页,这样的网页在浏览器中展示的内容都位于HTML源代码中。但是,由于主流网站使用JavaScript展现网页内容,和静态网页不同的是,使用JavaScript时,很多内容并不会出现在HTML源代码中,所以爬取静态网页的技术可能无法正常使用。因此,我们需要用到动态网页抓取的两种技术:通过浏览器审查元素解析真实网页地址和使用Selenium模拟浏览器的方...原创 2021-07-07 16:37:43 · 110 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第10章 解决中文乱码
第10章 解决中文乱码 如果你经常使用Python编程,或者在前面的章节中已经多次使用Python练习网络爬虫技术,就不可避免地会遇到中文乱码的问题。中文乱码问题经常难以解决,或者治标不治本,本章就来解决这一难题。 本章主要介绍什么是字符编码、Python的字符编码是什么以及如何解决Python中文乱码的问题。...原创 2021-07-07 16:36:10 · 91 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第11章 登录与验证码处理
第11章 登录与验证码处理 在第9章谈到了反爬虫会增加获取数据的难度,如登录后才可以查看、登录时设置验证码等。其实这些问题是可以解决的,我们既可以利用Python登录网页上的表单,还可以通过程序识别图片中的文字,以实现验证码的处理。 本章将针对第9章提出的要点进行介绍,主要包括如何处理登录表单、如何保存cookies、如何使用人工方法处理验证码以及使用OCR识别方法处理验证码。...原创 2021-07-07 16:36:03 · 120 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第12章 服务器采集
第12章 服务器采集 前面介绍的都是本机上的网络爬虫,包括如何获取网页、如何解析网页上的数据以及将数据存储在文件或数据库中。除此之外,还介绍了在遇到爬虫问题的时候的各种解决方法。 本章将介绍一种方法,能够解放你的计算机,让爬虫程序运行在“云”上,也能够让你随意改变自己的IP地址,进而走出爬虫被封IP的困境。...原创 2021-07-07 16:35:55 · 114 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第13章 分布式爬虫
第13章 分布式爬虫 通过第1章到第7章的学习,应该已经能够请求URL获取网页数据,并通过解析网页存储数据了,说明已经掌握了使用爬虫的入门基础技术获取数据,但是这样单线程的爬虫效率低,会将大量时间浪费在等待中。 通过第8章到第12章的学习,应该能够使用多线程、多进程或多协程成倍提升爬虫的效率,甚至通过将爬虫部署在服务器上将自己的个人计算机解放出来,说明已经能够提供一个较为成熟的爬虫方案了。 ...原创 2021-07-07 16:35:46 · 103 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第14章 爬虫实践一:维基百科
第14章 爬虫实践一:维基百科 “是骡子是马,拉出来遛遛”。我们已经将Python网络爬虫的技术系统地学习完了,后面几个章节开始进入实践环节。每一章都会使用之前学习的技术,通过实践提升爬虫的技术水平。只有通过实践,才能真正地积累知识,掌握网络爬虫的点石成金之术。 维基百科是一个网络百科全书,在一般情况下允许用户编辑任何条目。当前维基百科由非营利组织维基媒体基金会负责营运。维基百科一词是由网站核...原创 2021-07-07 16:35:40 · 229 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第15章 爬虫实践二:知乎Live
第15章 爬虫实践二:知乎Live 知乎是中文互联网一个非常大的知识社交平台。在知乎上,用户可以通过问答等交流方式获取知识。区别于百度知道等问答网站,知乎的回答往往非常深入,都是回答者精心写的,知乎上聚集了中国互联网科技、商业、文化等领域里最具创造力的人群之一,将高质量的内容通过人的节点形成规模的生产和分享,构建高价值人际关系网络。 本章为爬取知乎网站的实践项目,所采用的爬虫技术包括以下3种。...原创 2021-07-07 16:35:36 · 233 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第16章 爬虫实践三:百度地图API
第16章 爬虫实践三:百度地图API 百度地图是一款网络地图搜索服务。在百度地图里,用户可以查询街道、商场、楼盘的地理位置,也可以找到离你最近的餐馆、学校、银行、公园等。百度地图提供了丰富的API供开发者调用,我们可以免费地获取各类地点的具体信息。 本章为使用百度API获取数据的实践项目,所采用的技术包括: ·爬取网页:使用Requests请求百度地图API地址 ·解析网页:提取JSON数...原创 2021-07-07 16:35:32 · 297 阅读 · 0 评论 -
《Python网络爬虫从入门到实践 第2版》第17章 爬虫实践四:畅销书籍
第17章 爬虫实践四:畅销书籍 我们平时去在购买书籍之前,总喜欢看看畅销的书籍有哪些,别人的评价怎么样,再决定是否购买。亚马逊电商网站最早就是从卖书做起的,所以本章选择亚马逊作为案例来获取畅销书榜单的数据,以及相应的评论数据。 本章为爬取亚马逊数据的实践项目,所采用的技术包括: ·使用Selenium爬取网站 ·使用BeautifulSoup解析网页 ·数据存储至CSV文件...原创 2021-07-07 16:35:28 · 279 阅读 · 0 评论