《Python网络爬虫从入门到实践（第2版）》学习之一：网络爬虫入门

jyl_sh

于 2024-05-29 16:18:54 发布

阅读量1.2k

点赞数 14

分类专栏： Python网页采集 Python 爬虫文章标签： python 爬虫学习前端浏览器

本文链接：https://blog.csdn.net/jyl_sh/article/details/139298454

版权

Python 同时被 3 个专栏收录

8 篇文章 0 订阅

订阅专栏

爬虫

5 篇文章 0 订阅

订阅专栏

Python网页采集

3 篇文章 0 订阅

订阅专栏

第一章：网络爬虫入门

通过本章学习，能够明确学习网络爬虫的原因、网络爬虫带来的价值、网络爬虫是否合法以及网络爬虫的基本议题和框架。让读者在开始学习爬虫之前理解为什么学习、要学什么内容。

1.1 为什么要学网络爬虫

在数据量爆发式增长的互联网时代，网站与用户的沟通本质上是数据的交换：
搜索引擎从数据库中提取搜索结果，将其展现在用户面前；
电商将产品的描述、价格展现在网站上，以供买家选择心仪的产品；
社交媒体在用户生态圈的自我交互下产生大量文本、图片和视频数据等。

这些数据如果得以分析利用，不仅能够帮助第一方企业（拥有这些数据的企业）做出更好的决策，对于第三方企业也是有益的。而网络爬虫技术，则是大数据分析领域的第一个环节。

1.1.1 网络爬虫能带来什么好处

        大量企业和个人开始使用网络爬虫采集互联网的公开数据。那么对于企业而言，互联网上的公开数据能够带来什么好处呢？这里将用国内某家知名家电品牌举例说明。
        近几年来，随着大数据分析的火热，毕竟有数据才能进行分析，网络爬虫技术已经成为大数据分析领域的第一个环节。
        对于这些公开数据的应用价值，我们可以使用KYC框架来理解，也就是Know Your Company（了解你的公司）、Know Your Competitor（了解你的竞争对手）、Know Your Customer（了解你的客户）。通过简单描述性分析，这些公开数据就可以带来很大的商业价值。进一步讲，通过深入的机器学习和数据挖掘，在营销领域可以帮助企业做好4P（Product：产品创新，Place：智能选址，Price：动态价格，Promotion：个性化营销活动）；在金融领域，大数据征信、智能选股等应用会让公开数据带来越来越大的价值。

1.1.2 能从网络上爬取什么数据

简单来说，平时在浏览网站时，所有能见到的数据都可以通过爬虫程序保存下来。从社交媒体的每一条发帖到团购网站的价格及点评，再到招聘网站的招聘信息，这些数据都可以存储下来。

1.1.3 应不应该学爬虫

        对于任何一个与互联网有关的从业人员，无论是非技术的产品、运营或营销人员，还是前端、后端的程序员，都应该学习网络爬虫技术。
        一方面，网络爬虫简单易学、门槛很低。没有任何编程基础的人在认真看完本书的爬虫基础内容后，都能够自己完成简单的网络爬虫任务，从网站上自动获取需要的数据。
        另一方面，网络爬虫不仅能使你学会一项新的技术，还能让你在工作的时候节省大量的时间。如果你对网络爬虫的世界有兴趣，就算你不懂编程也不要担心，本书将会深入浅出地为你讲解网络爬虫。

1.2 网络爬虫是否合法

网络爬虫领域目前还属于早期的拓荒阶段，虽然互联网世界已经通过自身的协议建立起一定的道德规范（Robots协议），但法律部分还在建立和完善中。从目前的情况来看，如果抓取的数据属于个人使用或科研范畴，基本不存在问题；而如果数据属于商业盈利范畴，就要就事而论，有可能属于违法行为，也有可能不违法。

1.2.1 Robots协议

Robots协议（爬虫协议）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。该协议是国际互联网界通行的道德规范，虽然没有写入法律，但是每一个爬虫都应该遵守这项协议。

1.2.2 网络爬虫的约束

除了Robots协议之外，使用网络爬虫的时候还要对自己进行约束：过于快速或者频密的网络爬虫都会对服务器产生巨大的压力，网站可能封锁你的IP，甚至采取进一步的法律行动。因此需要约束自己的网络爬虫行为，将请求的速度限定在一个合理的范围之内。

        实际上，由于网络爬虫获取的数据带来了巨大的价值，网络爬虫逐渐演变成一场网站方与爬虫方的战争，你的矛长一寸，我的盾便厚一寸。在携程技术微分享上，携程酒店研发部研发经理崔广宇分享过一个“三月爬虫”的故事，也就是每年的三月份会迎来一个爬虫高峰期。因为有大量的大学生五月份交论文，在写论文的时候会选择爬取数据，也就是三月份爬取数据，四月份分析数据，五月份交论文。
        因此，各大互联网巨头也已经开始调集资源来限制爬虫，保护用户的流量和减少有价值数据的流失。
        在爬取网站的时候需要限制自己的爬虫，遵守Robots协议和约束网络爬虫程序的速度；在使用数据的时候必须遵守网站的知识产权。如果违反了这些规定，很可能会吃官司，并且败诉的概率相当高。

1.3 网络爬虫的基本议题

对于网络爬虫技术的学习，其他教学很少有从整体结构来说的，多数是直接放出某部分代码。这样的方法会使初学者摸不着头脑：就好像是盲人摸象，有人摸到的是象腿，以为是一根大柱子；有人摸到的是大象耳朵，以为是一把大蒲扇等。因此，在开始第一个爬虫之前，本书先从宏观角度出发说清楚两个问题：

Python爬虫的流程是怎样的？
三个流程的技术实现是什么？

值得说明的是，本书选择了Python 3作为开发语言，现在Python最新版为Python 3.7。熟悉Python 2的读者可以在本书代码的基础上稍加改动，用Python 2运行。值得注意的是，Python 2即将在2020年1月1日停止支持，因此建议初学者直接安装Python 3进行学习。
由于本书的潜在读者多数使用Windows操作系统，因此本书大部分实例都是基于Windows编写和运行的。如果使用的是Linux和Mac OS操作系统，在搭建好Python平台之后也可以直接运行本书中的代码。

1.3.1 Python爬虫的流程

网络爬虫的流程其实非常简单，主要可以分为三部分：（1）获取网页；（2）解析网页（提取数据）；（3）存储数据。

（1）获取网页就是给一个网址发送请求，该网址会返回整个网页的数据。类似于在浏览器中键入网址并按回车键，然后可以看到网站的整个页面。
（2）解析网页就是从整个网页的数据中提取想要的数据。类似于你在页面中想找到产品的价格，价格就是你要提取的数据。
（3）存储数据也很容易理解，就是把数据存储下来。我们可以存储在csv中，也可以存储在数据库中。

1.3.2 三个流程的技术实现

下面列出三个流程的技术实现，括号里是对应的章节。
1. 获取网页
获取网页的基础技术：requests、urllib和selenium（3&4）。
获取网页的进阶技术：多进程多线程抓取(8)、登录抓取（12）、突破IP封禁（9）和使用服务器抓取（12）。
2. 解析网页
解析网页的基础技术：re正则表达式、BeautifulSoup和lxml（5）。
解析网页的进阶技术：解决中文乱码（10）。
3. 存储数据
存储数据的基础技术：存入txt文件和存入csv文件（6）。
存储数据的进阶技术：存入MySQL数据库和MongoDB数据库（6）。
除此之外，第7章介绍Scrapy爬虫框架，第13章也会介绍分布式爬虫。
本书的使用方法：第1章到第7章是网络爬虫的基础，建议大家按顺序读；第8章到第13章是进阶部分，大家可以选择自己感兴趣的内容跳跃阅读。之后可以阅读第14章到第17章，通过项目实践消化和吸收Python爬虫的知识。
如果对于上述技术不熟悉的读者也不必担心，本书将会对其中的技术进行讲解，力求做到深入浅出。

jyl_sh

关注

14
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
《Python网络爬虫从入门到实践（第2版）》学习之一：网络爬虫入门

第一章：网络爬虫入门通过本章学习，能够明确学习网络爬虫的原因、网络爬虫带来的价值、网络爬虫是否合法以及网络爬虫的基本议题和框架。让读者在开始学习爬虫之前理解为什么学习、要学什么内容。
复制链接

扫一扫