1.python的安装
官网下载安装,比如安装到 F:\python3.7
将Python添加进环境变量:点击环境变量,找到系统变量下的Path变量,点击编辑按钮,添加两个:
F:\python3.7
F:\python3.7\Scripts
验证:搜索cmd,找到命令提示符,输入Python,显示Python版本后即为安装成功。
2.爬虫基础
2.1HTTP基本原理
-
URI与URL:URI,通一资源标志符(Universal Resource Identifier, URI),
URL是URI的一个子集。它是Uniform Resource Locator的缩写,译为“统一资源定位 符”。
URI可以认为是一个编号,类似一个身份证号,用来标识其唯一性,而URL既可以标识其具有唯一性,而且可以根据URL找到资源的位置,这就是区别
-
超文本:即源代码。在Chrome浏览器任一页面,鼠标右键选择检查,此时Element 标签内的代码就是超文本。
-
HTTP与HTTPS:HTTP:超文本传输协议,HTTPS为HTTP的安全版本,传输内容经过SSL加密。
-
HTTP请求过程:在Chrome浏览器,右键,检查,切换到Network 选项卡,。
第一列 Name :请求的名称,一般将URL最后一部分当做名称。
第二列 Status:响应码,200表示正常。
第三列 Type:请求文档类型。
第四列 Initiator:请求源。请求由哪个对象发起。
第五列 Size:文件大小。
第六列 Time:发起请求到响应用时。
第七列 Waterfall:网络请求的可视化瀑布流。
点击左侧网址,可以看见单个的详细信息。
介绍General
1.请求方法GET/POST:常见的这两种,GET请求的参数会出现在URL链接里,POST请求多用于表单提交,列如输入账号密码。
2.请求网址:唯一确定我们想要的资源。
介绍请求头
Accept:指定浏览器可以接受哪些数据。
Accept-Encoding:指定浏览器可以接受哪些编码。
Accept-Language:指定浏览器可以接受的语言类型。
cookies:网站为了维持会话保留在用户本地的用户数据。
User-Agent:用户浏览器代理信息。
介绍响应头
response就是响应体的内容,网页源代码就是解析目标。
爬虫思路:写爬虫时,大部分情况下是要自己加请求头的,如果要构造Post表单提交方式,一定要正确使用Content-Type。爬虫主要通过响应体得到网页的源代码,Json数据,然后从中做提取。