复习爬虫

刚刚经过期末考试,之前学期内学过的Python爬虫基础知识有些遗忘,今天来复习一下爬虫。
步骤:
1.请求行与请求头

我所接触到的就是Request Headrs,当然,这个在最基础的爬虫中用不到,但是在以后随着爬虫技术的加深,应该会用到的。
User-Agent(用户代理):对方服务器通过user-agent知道请求对方资源的是什么浏览器,或者说是不是浏览器,通过chrome可以模仿(模拟)手机版的网页浏览,模仿时候,user-agent是改成手机版的。
Accept:告诉服务端,我想接受什么数据
Accept-Encoding:告诉服务端我可以接受什么编码方式的数据。
Accept-Language:告诉服务端我们希望接受什么语言的数据。
Cookie:用来存储用户信息的,每次请求都会被带上发送给对方的浏览器。要获取登陆后才能访问的页面的内容。对方的服务器会通过cookie来判断爬虫。

2.requests模块
首先requests模块是一个第三方模块,需要自己安装。
requests的使用,那么使用第三方模块时,需要导包,在首行加入import requs。
response1 = requests.get(url)
response2 = requests.post(url,data = {请求体的字典})
这便是发起网络请求,其中url是你给想要爬取网页的网址,如
url = ‘https://www.baidu.com/’,这便是向百度发起网络请求。

3.response的方法
1.response.content.decode()此方法是把响应的二进制字节流转化为字符串类型
2.response.text该方法获取网页内容时往往会出现乱码,所以要在此前加上一个response.encoding = “utf-8”
3.response.request.url获取发送请求的url地址
4.response.url获取响应的url地址
5.response.request.headers请求头
6.response.headers响应头

特别需要注意的是由于爬虫的网站的编码是汉字,不是纯英文,所以要在开头写上“# coding=utf-8”

其实最基础的爬虫知识并没有多复杂,只是需要在细节的地方做出一些处理,如果没有格式要求的话那就变得更简单了,复习了爬虫最基础的知识后,便开始进行实战了,加油!

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值