2018年06月_sunsady

原创 python爬虫-scrapy-redis分布式

'''10.scrapy-redis分布式组件分布式:多台机器协同完成,提高效率缩短时间scrapy-redis组件和普通scrapy的区别:(1)引擎和下载器没变化(2)每个分布式的爬虫是共同完成一个任务,每个爬虫的调度器和redis数据库相连,redis中有对url的去重和 url的队列,start_url是随机分配给一个爬虫文件开始执行,然后响应中新解析出来的url通过调度器放到redis中...

2018-06-14 23:12:51 546

原创 python爬虫-scrapy框架

'''1.简述之前自定义的爬虫,都是相似的过程,请求url,解析响应,保存数据,相同的逻辑,框架实现了封装结构,避免重复的逻辑,只关注不同点,针对不同的网站解析方法不同,而且不同的业务需求保存的方式也不同,所以只关注这些部分,scrapy的性能优越底层使用twisted自定义协议框架来写的而且实现分布式爬虫简单框架结构:Scrapy Engine: 中间商,核心引擎,其他部分都是通过引擎中转的Sc...

2018-06-12 17:18:22 394

原创 mongodb数据库（下）

'''7.条件查询db.集合名.find()db.集合名.findOne(查询条件) 单条查询db.集合名.find().pretty() 对查询结果美化比较运算$lt 小于$lte 小于等于$gt 大于$gte 大于等于$ne 不等于db.集合名.find({key:{$lt:n}})逻辑运算and:db.集合名.find($and:[{key1:'value1'},{key2:'value2...

2018-06-06 10:10:49 338

原创 mongodb数据库（上）

''1.简述mongodb是文档型的数据库即储存的数据格式称作文档,底层是用js来写的,所以是符合js语法的大{}格式面向文档(分布式文件储存)的NOSQL型数据库,mongodb同时操作内存和硬盘,内存缓存然后储存到硬盘中mongodb三要素数据库:有不同的数据库 database集合: mysql的表就是mongodb中的集合 collection文档: 实际数据储存成文档documen...

2018-06-06 10:09:59 350

原创正则表达式（下）

4. 注意问题例如：匹配163邮箱@163.com 中有个点如果跟正则表达式中的限制符号冲突了为了让正则识别我的点就是普通的点而不是限制符号使用转义符号： \ 写成@163\.com比如要匹配的内容有 \ ，如果你在正则中写 \，会被识别成转义符号这时候就要写 \\ 可以理解成第一个\是转义符号第二个\就是它本身重...

2018-06-04 16:24:14 342

原创正则表达式（上）

正则表达式让机器严格按照我给的正则表达式（限定条件），来寻找（抓取）符合我要求的内容Import re变量 = re.match( ‘正则表达式’ ，’抓取的信息’ )获取：print（变量.group（））1.匹配单个字符：匹配一个字节位置，下列的符号只表示这一个字节位置上是什么，没有带数量的限制符号# . 匹配任意1个字符（除了\n）# [ ] 匹配[ ]中列举的字符 ...

2018-06-04 16:22:58 289

原创 python爬虫（3）

'''1.多线程使用消息队列 queue来通信,把每个方法得到的数据放到消息队列中,每个方法就可以当做一个子线程开启,线程间使用queue来通信,即 put()放入,get()拿出,以前run函数中一套流程下来只是单线程,注意,使用while True就能保证线程始终执行,使用task_done()来保证主线程等待子线程的所有消息队列执行完,4个函数生成url列表,请求,解析,保存,所以需要3个...

2018-06-02 23:51:05 357

原创 python爬虫（2）

thing = '爬虫解析''''1.数据分类非结构化:html和文本解析:re和xpath结构和:json和xml 解析:json模块->python字典json模块:json肯定是一个字符串,这个字符串中是个字典即' { } 'json转换json -> python的dict loads 加载成字典''''''2.正则re可是使用创建对象的方法...

2018-06-02 23:49:49 388

原创协程

主进程的子进程,子进程有它自己的主线程,也就是说还可以开辟子线程迭代器 (__iter__方法:把类变成可迭代,方法里边创建迭代器和__next__方法:获取下一个值)生成器结合列表推导式 g = (x * 2 for x in range(3)) 注意yield 和 return yield:代码执行到这个,看到yield暂停,等到再启动的时候执行yield后边的...

2018-06-01 14:02:14 1042

原创进程

线程同步:使用join,其实只有一个线程执行udp端口占用有个立即释放 udp_socket.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEPORT,True)os模块除了文件夹操作还有什么,好像没有了暂时没看到线程共享全局变量,进程不共享全局变量,进程实际是在自己本身中拷贝了一个全局变量,自己做更改所有线程有个Lock,进程没有Lock互相不影响线...

2018-06-01 14:00:11 415

原创线程

并发：指的是任务数多余cpu核数，通过操作系统的各种任务调度算法，实现用多个任务“一起”执行（实际上总有一些任务不在执行，因为切换任务的速度相当快，看上去一起执行而已）并行：指的是任务数小于等于cpu核数，即任务真的是一起执行的变量 = threading(模块).Thread(方法)(target=函数名,没有括号,name='给线程起的名字', 传参数少用元组args=(1,) 注意格式...

2018-06-01 13:59:13 314

sunsady的博客