Python 爬虫基础学习

1、爬虫的概念

  • 爬虫是模拟浏览器发送请求,获取相应

  • 爬虫的流程

  • URL--->发送请求,获取相应--->提取数据--->保存本地

  • 发送请求,获取相应---提取 URL

graph TD
A[url list] -->|发送请求| B(相应内容)-->E(提取url)-->A
B --> C(提取数据)
C --> D[模块D]

 

  • 爬虫要根据当前 url 地址对应的响应为准,当前 url 地址的 elements 的内容和 url 的响应 network 不一样

  • 页面上的数据在哪里

  • 当前 url 地址对应的响应中

  • 其他的 url 地址对应响应中

  • 比如 ajax 请求中

  • js 生成

  • 部分数据在响应中

  • 全部通过 js 生成

2、requests 库学习

  • 为什么学习 requests,而不是 urllib1.requests 的底层就是 urllib2.requests 在 Python2 和 Python3 中通用,方法完全一样 3.requests 简单易用 4.requests 能够自动帮助我们解压(gzip 压缩的等)网页内容

  • url 编码

  • http://www.baidu.com/s?wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2

  • 字符串格式化的另一种方式

    "传{}智播客".format(1)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值