python3爬虫(一)

~
人生就是这样起起落落落落落落
~

爬虫的概念

  • 爬虫是模拟浏览器发送请求,获取响应

爬虫的流程

  • url ——> 发送请求,获取响应 ——> 提取数据 ——> 保存
  • 发送请求,获取响应 ——> 提取url

url的形式

形式 scheme://host[:port#]/path/…/[?query-string][#anchoe]

scheme:协议(例如:http,https,ftp)
host:服务器的IP地址或者域名
port:服务器的端口(如果是走协议的默认端口,80 or 443 )
path:访问资源的路径
query-string:参数,发送给http服务器的数据
anchor:锚(跳转到网页的指定锚点位置)
例如

http://localhost:4000/file/part01/1.2.html

http://item.jd.com/11936.html#product-detail

在这里插入图片描述
Cookie:保存用户的一些个人信息(保存在浏览器上,不安全,存储量小)
Session:存储在对方服务器上,存储量大,无上限

HTTP常见请求头

  1. Host(主机和端口号)
  2. Connection(链接类型)
  3. Upgrade-Insecure-Requests(升级为HTTPS请求)
  4. User-Agent(浏览器名称)
  5. Accept(传输文件类型)
  6. Referer(页面跳转)
  7. Accept-Encoding(文件编解码格式)
  8. Cookie(Cookie)
  9. x-requested-with:xmlHttpRequest(是Ajax异步请求)

常见的请求方法

  • GET
  • POST
    两者的区别

响应状态码(Status code)

  • 200:成功
  • 302:临时转移至新的url
  • 307:临时转移至新的url
  • 404:not found
  • 500:服务器内部错误

爬虫的分类

  • 通用类爬虫:通常指搜索引擎的爬虫
  • [ 常用 ] 聚焦爬虫:针对特定网站的爬虫

爬虫的定义

网络爬虫(又被成为网页蜘蛛,网络机器人) 就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则自动地抓取互联网信息的程序
只要是浏览器能做的事情,原则上,爬虫都能够做

通用搜索引擎的局限性

  • 通用搜索引擎所返回的网页里90%的内容无用
  • 图片、音频、视频多媒体内容通用搜索引擎无能为力
  • 不同用户搜索的目的不全相同,但是返回内容相同

ROBOTS协议

Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
例如: www.taobao.com/robots.txt

浏览器发送HTTP请求的过程

在这里插入图片描述
浏览器渲染出来的页面和爬虫请求的页面不一样

pagerank算法作为搜索引擎中的一种算法

爬虫要根据当前url地址对应的响应为准,当前url地址的elements的内容和url的响应不一样

页面上的数据在哪里

  • 当前url地址对应的响应中
  • 其他的url地址对应的响应中
    比如ajax请求中
  • js生成的
    部分数据在响应中
    全部通过js生成
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Zcoder`Blog

嘻嘻~谢谢打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值