post获取重定向的链接 python_python爬虫知识点汇总大全，初学者必备资料

最新推荐文章于 2024-04-30 14:43:32 发布

A格调

最新推荐文章于 2024-04-30 14:43:32 发布

阅读量264

点赞数

文章标签： post获取重定向的链接 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31028871/article/details/112175225

版权

本文介绍了Python爬虫的基础知识，包括爬虫的实际应用、网络爬虫概念、为什么选择Python进行爬虫开发。讲解了HTTP协议、请求方法、URL结构以及Chrome的抓包工具使用。此外，还探讨了Python的urllib库，如urlopen、urlretrieve、urlencode等功能，以及requests库在发送HTTP请求中的便捷性。最后提到了代理设置和Cookie管理在爬虫中的重要性。

摘要由CSDN通过智能技术生成

第一节爬虫前奏

爬虫的实际例子：

搜索引擎(百度、谷歌、360搜索等)。

伯乐在线。

惠惠购物助手。

数据分析与研究(数据冰山知乎专栏)。

抢票软件等。

什么是网络爬虫：

通俗理解：爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来，然后使用一定的规则提取有价值的数据。

专业介绍：百度百科。

通用爬虫和聚焦爬虫：

通用爬虫：通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

聚焦爬虫：是面向特定需求的一种网络爬虫程序，他与通用爬虫的区别在于：聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理，尽量保证只抓取与需求相关的网页信息。

为什么用Python写爬虫程序：

PHP：PHP是世界是最好的语言，但他天生不是做这个的，而且对多线程、异步支持不是很好，并发处理能力弱。爬虫是工具性程序，对速度和效率要求比较高。

Java：生态圈很完善，是Python爬虫最大的竞争对手。但是Java语言本身很笨重，代码量很大。重构成本比较高，任何修改会导致代码大量改动。爬虫经常要修改采集代码。

C/C++：运行效率是无敌的。但是学习和开发成本高。写个小爬虫程序可能要大半天时间。

Python：语法优美、代码简洁、开发效率高、支持的模块多。相关的HTTP请求模块和HTML解析模块非常丰富。还有Scrapy和Scrapy-redis框架让我们开发爬虫变得异常简单。

准备工具：

Python3.6开发环境。

Pycharm 2017 professional版。

虚拟环境。`virtualenv/virtualenvwrapper`。

第二节 http协议和Chrome抓包工具

什么是http和https协议：

HTTP协议：全称是HyperText Transfer Protocol，中文意思是超文本传输协议，是一种发布和接收HTML页面的方法。服务器端口号是80端口。 HTTPS协议：是HTTP协议的加密版本，在HTTP下加入了SSL层。服务器端口号是443端口。

在浏览器中发送一个http请求的过程：

当用户在浏览器的地址栏中输入一个URL并按回车键之后，浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get”和“Post”两种方法。

当我们在浏览器输入URLhttp://www.baidu.com的时候，浏览器发送一个Request请求去获取http://www.baidu.com的html文件，服务器把Response文件对象发送回给浏览器。

浏览器分析Response中的 HTML，发现其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。

当所有的文件都下载成功后，网页会根据HTML语法结构，完整的显示出来了。

url详解：

URL是Uniform Resource Locator的简写，统一资源定位符。一个URL由以下几部分组成：

scheme://host:port/path/?query-string=xxx#anchor

scheme：代表的是访问的协议，一般为http或者https以及ftp等。

host：主机名，域名，比如www.baidu.com。

port

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
post获取重定向的链接 python_python爬虫知识点汇总大全，初学者必备资料

第一节爬虫前奏爬虫的实际例子：搜索引擎(百度、谷歌、360搜索等)。伯乐在线。惠惠购物助手。数据分析与研究(数据冰山知乎专栏)。抢票软件等。什么是网络爬虫：通俗理解：爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来，然后使用一定的规则提取有价值的数据。专业介绍：百度百科。通用爬虫和聚焦爬虫：通用爬虫：通用爬虫是搜索引擎抓取系统(百度、谷歌、搜狗等)的重要组成部分。主要是将互...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。