爬虫
文章平均质量分 94
夕刃
一个不只会CRUD的也会用Python的Java程序猿
展开
-
Python实现ChromeDriver定时更新(已伴随ChromeDriver工具的大更新,失效了)
Python实现ChromeDriver定时更新 Selenium作为一款基于web网页的UI自动化测试框架,深受开发人员的喜爱,再自动化领域占有着一席之地;Selenium框架,伴随着它配置的工具ChromeDriver,一同使用,帮助开发人员们完成了各式各样的工作,同时页节省了大部分的人力物力,大大提高了效率。 但是,使用Selenium框架的人员都知道,ChromeDriver是随着Google浏览器的更新需要同步去更新的,只有匹配版本的ChromeDriver,才能够启动浏览器,完成我们想要运行的程原创 2022-02-17 02:52:20 · 831 阅读 · 0 评论 -
爬虫基本库之request
掌握了一些基础的Http原理之后,我们就要想办法去获取网页当中的内容,最基础的便是模拟浏览器向服务器发送请求;Python强大的第三方库中已经为我们提供了最直接以及最有效的方法,来让我们模拟向指定网站发送请求,并且拿到想要的数据 基本库之request 我是用的Python版本是基于Anaconda集成的,里面已经安装了许多的第三方库,所以我这里所用到的第三方库除了没有的,就不再提供下载 先来看一个Demo import requests # 利用request发起get请求去访问百度首页,获取百度首页原创 2021-01-27 21:25:31 · 619 阅读 · 0 评论 -
爬虫网络基础(下)
4. Session和Cookies 4.1 静态网页和动态网页 静态网页: 网页的内容是HTML代码编写的,文字、图片等内容均通过写好的HTML代码来指定; 加载速度快,编写简单,但是存在很大的缺陷如可维护性差,不能根据URL灵活多变地显示内容等; 动态网页: 可以动态解析URL中参数的变化,关联数据库并动态呈现不同的页面内容,非常灵活多变; 无状态HTTP: 指HTTP协议对事务处理是没有记忆能力的,即服务器不知道客户端是什么状态; 4.2 Session和Cookies Session: 在服务端,也原创 2021-01-23 21:42:07 · 168 阅读 · 0 评论 -
爬虫网络基础(上)
1. HTTP原理 1.1 URI URI:(Uniform Resource Identifier),统一资源标志符; URL:(Universal Resource Locator),统一资源定位符; URN:(Universal Resource Name),统一资源名称;只命名资源而不指定如何定位资源 关系:URI包含了URL和URN,每个URL都是URI;用 URL/URI 来唯一指定了它的访问方式,其中包括了访问协议 HTTPS、访问路径(即根目录)和资源名称; 1.2 超文本(Hyperte原创 2021-01-23 21:37:34 · 351 阅读 · 2 评论