刚刚经过期末考试,之前学期内学过的Python爬虫基础知识有些遗忘,今天来复习一下爬虫。
步骤:
1.请求行与请求头
我所接触到的就是Request Headrs,当然,这个在最基础的爬虫中用不到,但是在以后随着爬虫技术的加深,应该会用到的。
User-Agent(用户代理):对方服务器通过user-agent知道请求对方资源的是什么浏览器,或者说是不是浏览器,通过chrome可以模仿(模拟)手机版的网页浏览,模仿时候,user-agent是改成手机版的。
Accept:告诉服务端,我想接受什么数据
Accept-Encoding:告诉服务端我可以接受什么编码方式的数据。
Accept-Language:告诉服务端我们希望接受什么语言的数据。
Cookie:用来存储用户信息的,每次请求都会被带上发送给对方的浏览器。要获取登陆后才能访问的页面的内容。对方的服务器会通过cookie来判断爬虫。
2.requests模块
首先requests模块是一个第三方模块,需要自己安装。
requests的使用,那么使用第三方模块时,需要导包,在首行加入import requs。
response1 = requests.get(url)
response2 = requests.post(url,data = {请求体的字典})
这便是发起网络请求,其中url是你给想要爬取网页的网址,如
url = ‘https://www.baidu.com/’,这便是向百度发起网络请求。
3.response的方法
1.response.content.decode()此方法是把响应的二进制字节流转化为字符串类型
2.response.text该方法获取网页内容时往往会出现乱码,所以要在此前加上一个response.encoding = “utf-8”
3.response.request.url获取发送请求的url地址
4.response.url获取响应的url地址
5.response.request.headers请求头
6.response.headers响应头
特别需要注意的是由于爬虫的网站的编码是汉字,不是纯英文,所以要在开头写上“# coding=utf-8”
其实最基础的爬虫知识并没有多复杂,只是需要在细节的地方做出一些处理,如果没有格式要求的话那就变得更简单了,复习了爬虫最基础的知识后,便开始进行实战了,加油!