Python3 爬虫（一）-- 简单网页抓取

最新推荐文章于 2024-08-03 14:18:54 发布

逆風的薔薇

最新推荐文章于 2024-08-03 14:18:54 发布

阅读量7.4w

点赞数 40

分类专栏： Python 文章标签：爬虫实例网络爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fly_yr/article/details/51525435

版权

本文介绍了Python3爬虫的基础知识，包括Http协议、urllib库的使用，并推荐了开发工具如IDLE和PyCharm。通过示例代码展示了如何进行简单的网页抓取，并给出了运行结果。

摘要由CSDN通过智能技术生成

序

一直想好好学习一下Python爬虫，之前断断续续的把Python基础学了一下，悲剧的是学的没有忘的快

。只能再次拿出来滤了一遍，趁热打铁，借鉴众多大神的爬虫案例，加入Python网络爬虫的学习大军~~~

爬虫之前

在着手写爬虫之前，要先把其需要的知识线路理清楚。

第一：了解相关Http协议知识

HTTP是Hyper Text Transfer Protocol（超文本传输协议）的缩写。它的发展是万维网协会（World Wide Web Consortium）和Internet工作小组IETF（Internet Engineering Task Force）合作的结果，（他们）最终发布了一系列的RFC，RFC 1945定义了HTTP/1.0版本。其中最著名的就是RFC 2616。RFC 2616定义了今天普遍使用的一个版本——HTTP 1.1。
HTTP协议（HyperText Transfer Protocol，超文本传输协议）是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效，使网络传输减少。它不仅保证计算机正确快速地传输超文本文档，还确定传输文档中的哪一部分，以及哪部分内容首先显示(如文本先于图形)等。

最低0.47元/天解锁文章

逆風的薔薇

关注

40
点赞
踩
142

收藏

觉得还不错? 一键收藏
34
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 34

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。