Python网络爬虫介绍

java1234_小锋

于 2023-10-27 11:21:50 发布

阅读量1k

点赞数

分类专栏： Python 文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/caoli201314/article/details/134072546

版权

Python 专栏收录该内容

253 篇文章 46 订阅

订阅专栏

本文介绍了网络爬虫的概念，其在搜索引擎、数据统计、出行抢票、比价平台等方面的应用，并重点讲解了Python爬虫技术，涉及requests、BeautifulSoup和Selenium等关键工具及其在爬虫流程中的作用。

摘要由CSDN通过智能技术生成

视频版教程：一天掌握python爬虫【基础篇】涵盖 requests、beautifulsoup、selenium

什么是网络爬虫？

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

比如百度 www.baidu.com 搜索引擎的所有检索内容，都是百度的很多蜘蛛去万维网上去抓取，以及进行持久化存储，用户通过百度搜索框，输入想要搜索的内容，百度服务器再通过算法检索出最相关，最佳的内容显示给搜索结果页面给用户展示。

网络爬虫的核心工作内容

网络爬核心工作内容是去目标站点爬取网页，将网页中我们需要的内容进行解析，最后保存，比如保存到Excel，数据库等。

网络爬虫的用途

应用场景1：搜索引擎抓取网页信息。 不知道大家对于Google、百度这种搜索引擎的工作原理都了解多少，搜索引擎的首要工作流程就是利用网络爬虫去爬取各个网站的页面。以百度蜘蛛为例，一旦有网站的页面更新了，百度蜘蛛就会出动，然后把爬取的页面信息搬回百度，再进行多次的筛选和整理。最终在大家搜索相关信息的时候，通过排名呈现给大家。可以说，没有网络爬虫，我们使用搜索引擎查询资料的时候，就不会那么便捷、全面和高效。

应用场景2：爬取需要数据进行统计。 冷数据启动时丰富数据的主要工具，新业务开始时，由于刚起步，所以没有多少数据，此时就需要爬取其他平台的数据来填充我们的业务数据。比如说，如果我们想做一个类似大众点评这样的平台，一开始没有商户等信息，就需要去爬取大众，美团等商家的信息来填充数据，比如天眼查，企查查，西瓜数据等等。

应用场景3：出行类软件通过爬虫抢票。 如果问网络爬虫技术应用最多的领域是什么？那一定是出行行业。相信每逢春运或是节假日，大家都用过一些抢票的软件，就为了获得一张机票或者是一张火车票，而这种出行类软件正是运用网络爬虫技术来达到抢票的目的。像抢票软件这样的网络爬虫，会不停地爬取交通出行的售票网站，一旦有票就会点击拍下来，放到自己的网站售卖。如果一定时间内没有人购买，就又会自动退票。然后又通过网站爬虫把票拍下来，到时间又继续退票，如此反复循环。

应用场景4：聚合平台整合信息进行比较。 如今，出现了很多比价平台、聚合电商还有返利平台等等给，这类聚合平台的本质都是提供横向数据比较，聚合服。比如说电商中经常需要有一种比价系统，从各大电商平台，如拼多多，淘宝，京东等抓取同一个商品的价格信息，以给用户提供最实惠的商品价格，这样就需要利用网络爬虫从各大电商平台爬取信息。

应用场景5：爬取个人信用信息 黑产，灰产，风控等，比如我们要向某些资金方申请授信，在资金方这边首先要部署一道风控，来看你的个人信息是否满足授信条件，这些个人信息通常是某些公司利用爬虫技术在各个渠道爬取而来的，当然了这类场景还是要慎用，不然正应了那句话“爬虫用的好，监牢进得早”。

Python的爬虫技术

爬虫的总流程可以理解为：蜘蛛要抓某个猎物-->沿着蛛丝找到猎物-->吃到猎物；即爬取-->解析-->存储；

在爬取数据过程中所需参考工具如下：

请求库：urllib、requests、selenium

解析库：正则、xpath、jsonpath、beautifulsoup、pyquery

存储库：文件、MySQL、Mongodb、Redis……

爬虫框架：Scrapy

java1234_小锋

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python网络爬虫介绍

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。比如百度 www.baidu.com 搜索引擎的所有检索内容，都是百度的很多蜘蛛去万维网上去抓取，以及进行持久化存储，用户通过百度搜索框，输入想要搜索的内容，百度服务器再通过算法检索出最相关，最佳的内容显示给搜索结果页面给用户展示。
复制链接

扫一扫

专栏目录