自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 多线程和多进程

多线程和多进程一、. 并发和并行(1)并行是指两个或者多个事件在同一时刻发生;而并发是指两个或多个事件在同一时间间隔发生(2)并行是在不同实体上的多个事件,并发是在同一实体上的多个事件。并行:指在同一时刻,有多条指令在多个处理器上同时执行。所以无论从微观还是从宏观来看,二者都是一起执行的。并发:指在同一时刻只能有一条指令执行,但多个进程指令被快速的轮换执行,使得在宏观上具有多个进程同时...

2019-12-24 19:26:33 230

原创 python爬虫(四)多线程爬虫

多线程爬虫关注:程序的运行速度主要是由cpu来决定的。想要提高程序的运行速度,就得提高cpu 的利用率提高cpu利用率的两种途径:让cpu不休息。cpu每时每刻都在处理任务,这个任务可以理解为线程。这种情况就叫做多线程。cpu都是分核。每个核就好比一个小脑袋。可以理解为一心多用。让每个核都作用起来,去干不同的事情,这种方法叫做多进程一、程序、线程、进程?程序:一个应用就可以理解为...

2019-12-23 19:52:20 161

原创 selenium的三种等待

selenium的三种等待1、强制等待:不管页面是否加载出来,强制让进城等待。time.sleep(2)2、隐式等待:driver.implicitly_wait(20)设置20秒的最大等待时长,他等待的结束条件是:等到浏览器全部加载完成为止。全部加载完可以理解为,浏览器不再转圈圈。弊端:页面的加载其实不单单是页面html,重要的还有一些页面静态资源,而静态资源的加载是最耗时的。这...

2019-12-23 19:18:56 165

原创 python爬虫(xpath)

一、什么是xml 1、定义:可扩展性标记语言 2、特点:xml是具有自描述结构的半结构化数据。 3、作用:xml主要设计宗旨是用来传输数据的。它还可以作为配置文件二、xml和html的区别: 1、语法要求不同:xml的语法要求更严格 (1)html不区分大小写,xml区分 (2)html有时可以省却尾标签。xml不能省略任何标签,严格按照嵌套首位结构。 (3)只有xml中有自...

2019-12-20 20:28:14 126

原创 python爬虫(三)---正则表达式

正则表达式一、数据的分类结构化数据特点:数据以行为单位,每一个数据表示一个实体。每一行数据的属性都是一样的。举例:关系型数据库中的表就是结构化数据。处理方法:sql半结构化数据特点:结构化数据的另一种形式。他并不符合关系型数据的特点,不能用关系型模型来描述,但是这种数据包含相关标记,有用来分割语义元素以及字段进行分层的描述。因此也被称为自描述结构。非结构化数据特点:没有固定结构...

2019-12-19 19:32:48 147

原创 cookie和session

cookie和session1、什么是cookie? cookie是指网站为了鉴别用户身份,进行会话跟踪而存储在客户端本地的数据。2、什么是session? 本来的含义是指有始有终的一些动作,而在web中,session对象用来在服务器存储特定用户会话所需要的属性及信息。3、cookie和session产生的原因: cookie和session他们不属于http协议范围,由于http协...

2019-12-19 19:17:39 97

原创 python爬虫(二)get、post请求及乱码的解决方法

requests模块一.使用步骤:导包——import requests确定基础url例如:base_url=‘https://www.baidu.com’发送请求,获取响应response = requests.get(base_url)处理响应内容二.requests.get() ----get请求方法参数详解1.requests.get( url=请求...

2019-12-18 20:12:16 1789

原创 python爬虫(一)

python爬虫(一)一. 爬虫的定义 :程序或者脚本----自动爬取万维网数据的程序或者脚本;二. 爬虫可以解决的问题:(1)解决冷启动问题。(2)搜索引擎的根基。–通用爬虫(3)帮助及其学习建立知识图谱。(4)制作各种比价软件三. 爬虫工程师的进阶之路: 初级爬虫工程师 1.web 前端的知识: HTML、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、j...

2019-12-17 20:32:34 262

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除