自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Python爬虫笔记(七)Mongo配置

一、mongo的配置 1、新建文件夹: C:\MongoDB\Server\3.4\data\db C:\MongoDB\Server\3.4\data\logs 2、配置环境变量: C:\MongoDB\Server\3.4\bin配置到path系统环境变量中。 3、测试是否配置成功 mongod --d...

2020-01-02 20:28:30 148

原创 Python爬虫笔记(五)动态html

一、反爬策略: 1、请求头: ---user-agent ---referer ---cookie 2、访问频率限制。 ---代理池 ---再用户访问高峰期进行爬取,冲散日志。12-13 7-10 ---设置等待时长。time.sleep(3) 3、ajax异步请求,用接口获取数据。 4、能一次性获取的数据,绝不发送第二次请求(获取数据的过程中尽量减少请求次数。) 能在列表页获取...

2019-12-24 08:36:33 147

原创 Python爬虫笔记(六)(2)多线程爬虫

关注: 程序运行速度---->主要是由cpu(大脑)来决定。 想要提高程序的运行速度----->提高cpu利用率。 提高cpu的利用率由两种途径: (1)让cpu不休息。cup每时每刻都在处理任务,这个任务可以理解为线程。这种情况就叫做多线程。 (2)cpu都是分核。每个核就是一个小脑袋。可以理解一心多用。让每个核都作用起来,去干不同的事情,这种方法是就叫多进程。 一...

2019-12-23 22:01:09 133

原创 Python爬虫笔记(六)(1)selenium的三种等待

selenium的三种等待: 1.强制等待:不管页面是否加载出来,强制让金晨等待。 time.sleep(2) 2.隐式等待: driver.implicity_wait(20) 设置20秒的最大等待时长,等待的结束条件是: 等待到浏览器全部加载完成为止。 (全部加载可以理解为,浏览器不再转圈。) 弊端:页面的加载其实不单单是页面html,重要的是还有一些静态资源, 而静态资...

2019-12-23 19:09:53 206

原创 Python爬虫笔记(四)xpath

xml,xml和html的区别,xpath

2019-12-20 21:58:56 190

原创 Python爬虫笔记(三)(2)正则表达式

数据的分类 json数据 正则表达式

2019-12-19 19:07:22 170

原创 Python爬虫笔记(三)(1)cookie和session

什么是cookie 什么是session 产生的原因 cookie的原理 session的工作原理

2019-12-19 18:56:50 206

转载 Python递归详解

递归的依据在数学中,其实就是数学中的数学归纳法。 一、数学归纳法 什么是数学归纳法? 最简单和常见的数学归纳法是证明当n等于任意一个自然数时某命题成立。证明分下面两步: 证明当n= 1时命题成立。 假设n=m时命题成立,那么可以推导出在n=m+1时命题也成立。(m代表任意自然数) 这种方法的原理在于:首先证明在某个起点值时命题成立,然后证明从一个值到下一个值的过程有效。当这两点都已经证明...

2019-12-18 22:04:33 1326

原创 Python爬虫笔记(二)requests模块get,post,代理

使用步骤: 1.导包 2、确定基础url 3、发送请求,获取响应 4、处理响应内容

2019-12-18 19:12:34 891

原创 Python爬虫笔记(一)基础

一、爬虫的定义: 二、爬虫可以解决的问题: 三、爬虫工程师的进阶之路: 四、搜索引擎: 五、robots协议: 六、http协议:

2019-12-17 20:06:19 403

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除