自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 redis

2019-12-29 19:47:39 70

原创 Mongo

1、mongodb 文档数据库,存储的是文档(Bson->json的二进制化).{name:‘zhangsan’,age:‘9’}2、MongoDB特点:内部执行引擎为JS解释器, 把文档存储成bson结构,在查询时,转换为JS对象,并可以通过熟悉的js语法来操作.2、mongo和传统型数据库相比,最大的不同:传统型数据库: 结构化数据, 定好了表结构后,每一行的内容,必是符合表结...

2019-12-29 19:29:32 167

原创 mmongo

一、mongo的配置1、新建文件夹:C:\MongoDB\Server\3.4\data\dbC:\MongoDB\Server\3.4\data\logs2、配置环境变量:C:\MongoDB\Server\3.4\bin配置到path系统环境变量中。3、测试是否配置成功mongod --dbpath C:\MongoDB\Server\3.4\data\db4、配置服务:mo...

2019-12-24 18:57:14 90

原创 多线程爬虫

关注:程序运行速度---->主要是由cpu(大脑)来决定。 想要提高程序的运行速度----->提高cpu利用率。 提高cpu的利用率由两种途径:(1)让cpu不休息。cup每时每刻都在处理任务,这个任务可以理解为线程。这种情况就叫做多线程。(2)cpu都是分核。每个核就是一个小脑袋。可以理解一心多用。让每个核都作用起来,去干不同的事情,这种方法是就叫多进程。一、程...

2019-12-23 22:06:24 81

原创 HTML处理

一、反爬策略:1、请求头:—user-agent—referer—cookie2、访问频率限制。—代理池—再用户访问高峰期进行爬取,冲散日志。12-13 7-10—设置等待时长。time.sleep(3)3、ajax异步请求,用接口获取数据。4、能一次性获取的数据,绝不发送第二次请求(获取数据的过程中尽量减少请求次数。)5、页面内容是js代码。selenium+phan...

2019-12-22 21:46:37 162

原创 xpath提取数据

一、什么xml?1、定义:可扩展标记性语言2、特点:xml的是具有自描述结构的半结构化数据。3、作用:xml主要设计宗旨是用来传输数据的。他还可以作为配置文件。二、xml和html的区别?1、语法要求不同:xml的语法要求更严格。(1)html不区分大小写的,xml区分。(2)html有时可以省却尾标签。xml不能省略任何标签,严格按照嵌套首位结构。(3)只有xml中有自闭标签(没...

2019-12-21 08:33:51 183

原创 正则表达式

一、cookie和session1、什么是cookie?cookie是指网站为了鉴别用户身份,进行会话跟踪而存储在客户端本地的数据。2、什么是session?本来的含义是指有始有终的一些列动作,而在web中,session对象用来在服务器存储特定用户会话所需要的属性及信息。3、cookie和session产生的原因:cookie和session他们不属于http协议范围,由于http协...

2019-12-19 22:42:11 83

原创 requests模块

1、使用步骤:#1.导包import requests#2、确定基础urlbase_url = ‘https://www.baidu.com’#3、发送请求,获取响应response = requests.get(base_url)#4、处理响应内容2、requests.get()—get请求方法参数详解(1)requests.get( url=请求url, head...

2019-12-18 23:25:44 59

原创 爬虫与数据

一、爬虫的定义:程序或者脚本—》自动的爬取万维网的数据的程序或者脚本。二、爬虫可以解决的问题:(1)解决冷启动问题。(2)搜索引擎的根基。—通用爬虫。(3)帮助机器学习建立知识图谱。(4)制作各种比价软件。三、爬虫工程师的进阶之路:初级爬虫工程师1.web 前端的知识: HTML、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、jQuery、json 等;2、正...

2019-12-17 20:10:51 152

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除