Python 爬虫教程 1 - 前言

本文作为Python爬虫教程的开篇,介绍了爬虫的基本概念和工作原理,阐述了爬虫在抓取互联网非结构化数据,转换为有价值信息的作用。同时,概述了爬虫涉及的网页组成、HTTP协议、网页解析、数据存储以及相关进阶技巧,强调了教程将侧重于使用Python实现爬虫程序。
摘要由CSDN通过智能技术生成

写在最开始

最近开始慢慢的自学爬虫,一边学也一边想写点什么,所以在这里写下来,也当是对自己学习过程的一个总结。

什么是爬虫

互联网每天都会产生大量的数据,但是互联网产生的数据大都是非结构化的数据,无法直接用于分析产生价值,所以需要对这样一些网页里的数据进行抓取,得到有价值的结构化数据。而网络爬虫就是这样一种用于抓取网页的程序。实际上我们常用的百度,谷歌等搜索引擎就是功能强大的爬虫。
网络爬虫的工作方式比较固定,(1)通过 url 定位网页,并下载网页内容(文本);(2)对网页内容进行分析,定位,得到感兴趣的数据;(3)同时从这个网页中解析出其中感兴趣的 url,回到步骤(1);(4)直到达到某种停止条件(没有更多 url 等原因)。通过这样的方式,可以将我们的访问从一个入口延伸到许许多多感兴趣的页面。


流程图

爬虫涉及的知识点

网络爬虫涉及的内容较多也比较杂,在这里先对这些内容进行一下大致的介绍。
1. 网页的组成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值