python网络爬虫初识_Python之初识网络爬虫

最新推荐文章于 2023-07-11 14:39:55 发布

漂泊满江南

最新推荐文章于 2023-07-11 14:39:55 发布

阅读量164

点赞数

文章标签： python网络爬虫初识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28314575/article/details/113675403

版权

Python之初识网络爬虫，Python是一种怎样的计算机程序设计语言?你可能已经听说过很多种流行编程语言，比如非常难学的C语言，非常流行的Java语言，适合初学者的Basic语言，适合网页编程的JavaScript语言，那么零基础学Python之初识网络爬虫，今天我们先从网络爬虫的定义、与浏览器的相似之处和网络请求等基础内容入手。

1、零基础学Python之初识网络爬虫—网络爬虫的定义

网络爬虫(又被称为网页蜘蛛，网络机器人)，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。

2、零基础学Python之初识网络爬虫—网络爬虫与浏览器相似之处

网络爬虫的抓取过程可以理解为模拟浏览器操作的过程。

浏览器的主要功能就是向服务器发出请求，在浏览器窗口中展示您选择的网络资源。这里所说的资源一般是指 HTML 文档，也可以是 PDF、图片或其他的类型。

资源的位置由用户使用 URI(统一资源标示符)指定。

浏览器解释并显示HTML文件的方式是在HTML和CSS规范中指定的。这些规范由网络标准化组织 W3C(万维网联盟)进行维护。

3、零基础学Python之初识网络爬虫—网络爬虫抓什么

一般来讲，抓取的内容主要来源于网页，目前，随着这几年移动互联网的发展，越来越多信息来源于移动互联网App、H5等，所以爬虫就不止局限于一定要抓取解析网页，还有移动互联网app、H5等的网络请求进行抓取

对网络爬虫而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。

4、零基础学Python之初识网络爬虫—了解网络请求

网络爬虫以HTTP、HTTPS请求为主，读取网页内容，提取有用的价值，内容一般分为两部分，非结构化的文本，或结构化的文本。

超文本传输协议(HTTP，HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。

漂泊满江南

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python网络爬虫初识_Python之初识网络爬虫

Python之初识网络爬虫，Python是一种怎样的计算机程序设计语言?你可能已经听说过很多种流行编程语言，比如非常难学的C语言，非常流行的Java语言，适合初学者的Basic语言，适合网页编程的JavaScript语言，那么零基础学Python之初识网络爬虫，今天我们先从网络爬虫的定义、与浏览器的相似之处和网络请求等基础内容入手。1、零基础学Python之初识网络爬虫—网络爬虫的定义网络爬虫(又...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。