爬虫基础(2)

最新推荐文章于 2024-10-13 20:07:25 发布

长得丑就要多读书

最新推荐文章于 2024-10-13 20:07:25 发布

阅读量519

点赞数

分类专栏： Python爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/qq_40523659/article/details/122512445

版权

Python爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1.Session

Session代表服务器与浏览器的一次会话过程，是一种服务器端的机制，用来存储特定用户会话所需的信息。Session由服务器端生成，保存在服务器中。

2.Cookie

Cookie由服务器端生成并发给客户端，保存在客户端。

当客户端第二次发送请求时，服务器会在请求头中读取Cookie。

3.Ajax

Ajax在浏览器与Web服务器之间使用异步数据传输，这样可以使网页从服务器请求少量的信息，而不是整个页面。Ajax独立于浏览器和平台，对Ajax地址进行Post或get，返回JSON。

4.urllib库

urllib库是Python自带的用于网络请求的库，通常用于爬虫开发，API(应用程序接口)数据获取和测试。

①urllib.requst：用于打开和读取URL

②urllib.error：包含提出的例外（异常）urllib.request

③urllib.parse：用于解析URL

④urllib.robotparser：用于解析robots.txt文件

5.urllib.request库

urllib.request模拟浏览器发起一个HTTP请求，并获取请求响应结果。urllib.request.urlopen语法格式：

urlopen(url,data,[timeout,]*,cafile,capath,cadefault,context)

当不指定data值时，默认为get请求。data以字典形式存储数据，并将参数data由字典类型转换为字节类型才行。

urlopen函数返回的结果是一个http.client.HTTPResponse对象

import urllib.request
import urllib.parse

url = 'https://www.xslou.com/'
data = {'username':'18400000000','password':'123456','action':'login'}
#发送请求
resp = urllib.request.urlopen(url,data=bytes(urllib.parse.urlencode(data),encoding='utf-8'))
html = resp.read().decode('gbk')
print(html)

6.构造Request对象

有些网站具有反爬机制这时需要加上请求头信息冒充浏览器。

import urllib.request
url = 'https://movie.douban.com/'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'}
req = urllib.request.Request(url,headers=headers)
resp = urllib.request.urlopen(req)
html = resp.read().decode('utf-8')
print(html)

在此感谢帮我码字的粉丝，这是我的第一位粉丝，让我实现了粉丝数从0到1的突破，无以为报，拜个早年吧！