python入门爬虫和数据抓取让你拥有自己的数据

最新推荐文章于 2024-02-26 21:26:41 发布

python课堂笔记

最新推荐文章于 2024-02-26 21:26:41 发布

阅读量322

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/weixin_42069479/article/details/105927092

版权

Python 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

为什么要做爬虫？

现在是"大数据时代"，大量的数据可以从那里获取

当你为数据而烦恼的时候那你就可以学习网络爬虫。

抓取网络数据：如果你成为一个爬虫工程师那网上的都是你数据。
在这里插入图片描述

网络爬虫？
·网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

通用爬虫和聚焦爬虫
通常网络爬虫可分为通用爬虫和聚焦爬虫两种.

通用爬虫
通用网络爬虫主要是由捜索引擎抓取系统（百度、谷歌等）组成的。主要目的是爬取备份网站的数据。
蜘蛛程序url抓取页面–存储—原始页面
搜索引擎（Search Engine）工作原理
搜索引擎的基本工作原理包括如下三个过程：首先在互联网中发现、搜集网页信息；同时对信息进行提取和组织建立索引库；再由检索器根据用户输入的查询关键字，在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并将查询结果返回给用户。

第一步：抓取网页
Search Engine的基本工作流程如下：

首先获取URL -->抓取网页–>获取新的URL–>然后判断是否还需抓取
在这里插入图片描述

在抓取的时候要注意Robots协议：
Robots协议（也叫爬虫协议、机器人协议等），全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，例如：
淘宝网：https://www.taobao.com/robots.txt

第二步：数据存储
搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。其中有，
网站数据库，就是动态网站存放网站数据的空间。
索引数据库，索引是对数据库表中一列或多列的值进行排序的一种结构，使用索引可快速访问数据库表中的特定信息。
简单的来说，就是把【抓取】的网页放进数据库。

第三步：预处理
引擎抓取的数据不是全部要，一部分要先处理一下如：
提取文字
中文分词
消除噪音（比如版权声明文字、导航条、广告等……）
索引处理
链接关系计算
特殊文件处理
…
除了HTML文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。

第四步：提供检索服务，网站排名
搜索引擎会提供一些服务，如网站排名。当你学会了SEO你让你网站更好被别人搜索到。

在这里插入图片描述