爬虫小知识点

1.爬虫的定义

模拟浏览器发送请求,获取响应

2.为什么浏览器渲染出来的页面和爬虫请求的页面不一样?

浏览器有css,js,url对应的响应
爬虫url对应的响应
由于js能够修改页面内容,所以会导致elements的内容和url对应的响应不一样

3.User-Agent是什么?有什么用?

User-Agent:告诉服务端是谁在发送请求,
通过User-Agent来模拟浏览器
模拟手机版的浏览器,把User-Agent改成手机版的就好了

4.get请求和post请求有什么区别?

get:没有请求体,数据在url中,携带的数据有上限
post:有请求体,无法在url中看到,携带的数据没有上限

5.bytes类型和str类型如何相互转化
bytes.decode() --->str
str.encode() --->bytes
6.requests模块如何发送请求,如何获取html字符串
 import requests
 r = requests.get(url)
 r.encoding = "utf-8"
 r.text #获取网页的html字符串
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值