1、爬虫基础

1.python的安装
官网下载安装,比如安装到 F:\python3.7
将Python添加进环境变量:点击环境变量,找到系统变量下的Path变量,点击编辑按钮,添加两个:
F:\python3.7
F:\python3.7\Scripts
验证:搜索cmd,找到命令提示符,输入Python,显示Python版本后即为安装成功。
2.爬虫基础

2.1HTTP基本原理

  • URI与URL:URI,通一资源标志符(Universal Resource Identifier, URI),

    URL是URI的一个子集。它是Uniform Resource Locator的缩写,译为“统一资源定位 符”。

    URI可以认为是一个编号,类似一个身份证号,用来标识其唯一性,而URL既可以标识其具有唯一性,而且可以根据URL找到资源的位置,这就是区别

  • 超文本:即源代码。在Chrome浏览器任一页面,鼠标右键选择检查,此时Element 标签内的代码就是超文本。

  • HTTP与HTTPS:HTTP:超文本传输协议,HTTPS为HTTP的安全版本,传输内容经过SSL加密。

  • HTTP请求过程:在Chrome浏览器,右键,检查,切换到Network 选项卡,。
    在这里插入图片描述
    第一列 Name :请求的名称,一般将URL最后一部分当做名称。
    第二列 Status:响应码,200表示正常。
    第三列 Type:请求文档类型。
    第四列 Initiator:请求源。请求由哪个对象发起。
    第五列 Size:文件大小。
    第六列 Time:发起请求到响应用时。
    第七列 Waterfall:网络请求的可视化瀑布流。
    点击左侧网址,可以看见单个的详细信息。
    介绍General
    在这里插入图片描述
    1.请求方法GET/POST:常见的这两种,GET请求的参数会出现在URL链接里,POST请求多用于表单提交,列如输入账号密码。
    2.请求网址:唯一确定我们想要的资源。
    介绍请求头
    在这里插入图片描述
    Accept:指定浏览器可以接受哪些数据。
    Accept-Encoding:指定浏览器可以接受哪些编码。
    Accept-Language:指定浏览器可以接受的语言类型。
    cookies:网站为了维持会话保留在用户本地的用户数据。
    User-Agent:用户浏览器代理信息。
    在这里插入图片描述
    介绍响应头
    在这里插入图片描述
    response就是响应体的内容,网页源代码就是解析目标。

爬虫思路:写爬虫时,大部分情况下是要自己加请求头的,如果要构造Post表单提交方式,一定要正确使用Content-Type。爬虫主要通过响应体得到网页的源代码,Json数据,然后从中做提取。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值