python入门爬虫和数据抓取让你拥有自己的数据

**为什么要做爬虫?**


现在是"大数据时代",大量的数据可以从那里获取

当你为数据而烦恼的时候那你就可以学习网络爬虫。

抓取网络数据:如果你成为一个爬虫工程师那网上的都是你数据。
在这里插入图片描述

网络爬虫?
·网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

通用爬虫和聚焦爬虫
通常网络爬虫可分为通用爬虫和聚焦爬虫两种.

通用爬虫
通用网络爬虫主要是由捜索引擎抓取系统(百度、谷歌等)组成的。主要目的是爬取备份网站的数据。
蜘蛛程序url抓取页面–存储—原始页面
搜索引擎(Search Engine)工作原理
搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

第一步:抓取网页
Search Engine的基本工作流程如下:

首先获取URL -->抓取网页–>获取新的URL–>然后判断是否还需抓取
在这里插入图片描述

在抓取的时候要注意Robots协议:
Robots协议(也叫爬虫协议、机器人协议等),全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,例如:
淘宝网:https://www.taobao.com/robots.txt

第二步:数据存储
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中有,
网站数据库,就是动态网站存放网站数据的空间。
索引数据库,索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。
简单的来说,就是把【抓取】的网页放进数据库。

第三步:预处理
引擎抓取的数据不是全部要,一部分要先处理一下如:
提取文字
中文分词
消除噪音(比如版权声明文字、导航条、广告等……)
索引处理
链接关系计算
特殊文件处理

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。

第四步:提供检索服务,网站排名
搜索引擎会提供一些服务,如网站排名。当你学会了SEO你让你网站更好被别人搜索到。

在这里插入图片描述

了解:baidu搜索引擎的工作原理

聚焦爬虫
聚焦爬虫 (又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。

而我们现在学习爬虫,注意是聚焦爬虫。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值