python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高
作用: 模拟浏览器发请求
requests模块的编码流程
-指定url
-发起请求
-获取响应数据
-持久化储存(指定储存地址)
环境安装
pip install requests
set-cookie 响应头 js的运行 (登录后server给的)
cookie 请求头 带着sessionid给server,server判断sessionid是否已登录
request.session() 能自动处理set-cookie中的内容,像浏览器一样,自动存储,发送请求的时候自动携带,但并不是像browser一样将cookie存在文件中,而是内存层面的储存
执行requests.get()的时候,相当于执行了session = requests.session() session.request(),源码中就有这些东西
代理
代理在requests.get()中的参数是proxies=dict,传入的是一个字典,字典中放代理ip
关于xpath解析不到的标签
这种标签一般是js动态创建的. (例如video标签),页面源代码里是没有这玩意的,几乎没有网站会直接把video放在页面源代码里. 更很少有会把video的src地址直接铺出来.
你看到的网页的内容只有两个途径能产生. 一个是页面源代码. 另一个就是js