python爬虫专栏
爬虫专栏以实战为主,事件驱动,解决过程中的bug,最终实现网页解析和爬取
鞍-
这个作者很懒,什么都没留下…
展开
-
03、requests session 以及 github 模拟登陆
1、requests.session--cookie弊端:每发一次请求都需要发一次--requests.session的作用 requests模块中的Session类能够自动处理发送请求获取响应过程中产生的cookie,进而达到状态保持的目的。 自动处理cookie,即 下一次请求会带上前一次的cookie--requests.session的应用场景 连续多次请求--使用方法: session实例在请求了一个网站后,对方服务器设置在本地的cookie会保存在原创 2020-08-30 00:09:39 · 162 阅读 · 0 评论 -
02、requests 实现 代理 和 post 提交及post翻译案例
1、原理讲解--代理以及proxy代理的原理 --proxy代理参数通过指定代理ip,让代理ip对应的正向代理服务器转发我们发送的请求--代理ip本质上就是一个代理服务器,用来向目标地址转发请求,接受返回数据并转发给我们--正向代理 和 反向代理的区别 --正向代理:浏览器或者客户端请求的时候知道地址在哪儿,直接发过去,例如 VPN --反向代理:不知道最终目的地址在哪儿,而是由代理服务器代为转发,例如 nginx注:正向代理是知道目的地址的容易被攻击,反向代理是看不原创 2020-08-29 19:58:41 · 3645 阅读 · 0 评论 -
01、爬虫基本知识 和 request模块基本使用
01、https http复习--HTTP:超文本传输协议,默认端口号是80 --超文本:是指超过文本,不仅限于文本;还包括图片、音频、视频等文件 --传输协议:是指使用共用约定的固定格式来传递转换成字符串的超文本内容 --HTTPS:HTTP + SSL(安全套接字层),即带有安全套接字层的超本文传输协,默认端口号:443 --SSL对传输的内容(超文本,也就是请求体或响应体)进行加密 --可以打开浏览器访问一个url,右键检查,点击net work,点选一原创 2020-08-26 13:16:28 · 334 阅读 · 0 评论 -
01--selenium爬虫初级使用:不打开浏览器的情况下,爬取界面做到所见即所得
1、selenium 不同于requests和urllib.request两个包,这个本质上是等浏览器渲染完毕才开始爬取,即所见即所得。不会存在误差,是一个非常棒爬取包,但是占用资源也非常大,对于数据公司非常不友好,对于个人使用者、非数据驱动的公司而言非常便捷和实用2、简单使用,一般会打开浏览器给我们造成不便,但是可以通过设置是的不需打开即可获取响应1、浏览器版本确定...原创 2020-04-17 01:12:15 · 4678 阅读 · 0 评论