1、爬虫基础

最新推荐文章于 2024-01-23 20:12:13 发布

qnvhuang

最新推荐文章于 2024-01-23 20:12:13 发布

阅读量118

点赞数

分类专栏： Python爬虫文章标签： Python爬虫

本文链接：https://blog.csdn.net/qnvhuang/article/details/100083828

版权

Python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.python的安装
官网下载安装，比如安装到 F:\python3.7
将Python添加进环境变量：点击环境变量，找到系统变量下的Path变量，点击编辑按钮，添加两个：
F:\python3.7
F:\python3.7\Scripts
验证：搜索cmd，找到命令提示符，输入Python，显示Python版本后即为安装成功。
2.爬虫基础

2.1HTTP基本原理

URI与URL：URI，通一资源标志符(Universal Resource Identifier， URI)，

URL是URI的一个子集。它是Uniform Resource Locator的缩写，译为“统一资源定位符”。

URI可以认为是一个编号,类似一个身份证号,用来标识其唯一性,而URL既可以标识其具有唯一性,而且可以根据URL找到资源的位置,这就是区别
超文本：即源代码。在Chrome浏览器任一页面，鼠标右键选择检查，此时Element 标签内的代码就是超文本。
HTTP与HTTPS：HTTP:超文本传输协议，HTTPS为HTTP的安全版本，传输内容经过SSL加密。
HTTP请求过程：在Chrome浏览器，右键，检查，切换到Network 选项卡，。

第一列 Name ：请求的名称，一般将URL最后一部分当做名称。
第二列 Status：响应码，200表示正常。
第三列 Type：请求文档类型。
第四列 Initiator：请求源。请求由哪个对象发起。
第五列 Size：文件大小。
第六列 Time：发起请求到响应用时。
第七列 Waterfall：网络请求的可视化瀑布流。
点击左侧网址，可以看见单个的详细信息。
介绍General

1.请求方法GET/POST：常见的这两种，GET请求的参数会出现在URL链接里，POST请求多用于表单提交，列如输入账号密码。
2.请求网址：唯一确定我们想要的资源。
介绍请求头

Accept：指定浏览器可以接受哪些数据。
Accept-Encoding：指定浏览器可以接受哪些编码。
Accept-Language：指定浏览器可以接受的语言类型。
cookies：网站为了维持会话保留在用户本地的用户数据。
User-Agent：用户浏览器代理信息。

介绍响应头

response就是响应体的内容，网页源代码就是解析目标。

爬虫思路：写爬虫时，大部分情况下是要自己加请求头的，如果要构造Post表单提交方式，一定要正确使用Content-Type。爬虫主要通过响应体得到网页的源代码，Json数据，然后从中做提取。

qnvhuang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1、爬虫基础

1.python的安装官网下载安装，比如安装到 F:\python3.7将Python添加进环境变量：点击环境变量，找到系统变量下的Path变量，点击编辑按钮，添加两个：F:\python3.7F:\python3.7\Scripts验证：搜索cmd，找到命令提示符，输入Python，显示Python版本后即为安装成功。2.爬虫基础2.1HTTP基本原理URI与URL：URI，...
复制链接

扫一扫