自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 python爬虫-scrapy-redis分布式

'''10.scrapy-redis分布式组件分布式:多台机器协同完成,提高效率缩短时间scrapy-redis组件和普通scrapy的区别:(1)引擎和下载器没变化(2)每个分布式的爬虫是共同完成一个任务,每个爬虫的调度器和redis数据库相连,redis中有对url的去重和 url的队列,start_url是随机分配给一个爬虫文件开始执行,然后响应中新解析出来的url通过调度器放到redis中...

2018-06-14 23:12:51 546

原创 python爬虫-scrapy框架

'''1.简述之前自定义的爬虫,都是相似的过程,请求url,解析响应,保存数据,相同的逻辑,框架实现了封装结构,避免重复的逻辑,只关注不同点,针对不同的网站解析方法不同,而且不同的业务需求保存的方式也不同,所以只关注这些部分,scrapy的性能优越底层使用twisted自定义协议框架来写的而且实现分布式爬虫简单框架结构:Scrapy Engine: 中间商,核心引擎,其他部分都是通过引擎中转的Sc...

2018-06-12 17:18:22 394

原创 mongodb数据库(下)

'''7.条件查询db.集合名.find()db.集合名.findOne(查询条件) 单条查询db.集合名.find().pretty()  对查询结果美化比较运算$lt 小于$lte 小于等于$gt 大于$gte 大于等于$ne 不等于db.集合名.find({key:{$lt:n}})逻辑运算and:db.集合名.find($and:[{key1:'value1'},{key2:'value2...

2018-06-06 10:10:49 338

原创 mongodb数据库(上)

''1.简述mongodb是文档型的数据库 即储存的数据格式称作文档,底层是用js来写的,所以是符合js语法的 大{}格式面向文档(分布式文件储存)的NOSQL型数据库,mongodb同时操作内存和硬盘,内存缓存然后储存到硬盘中mongodb三要素数据库:有不同的数据库 database集合: mysql的表 就是mongodb中的集合 collection文档: 实际数据储存成文档documen...

2018-06-06 10:09:59 350

原创 正则表达式(下)

4.  注意问题例如:匹配163邮箱@163.com     中有个点     如果跟正则表达式中的限制符号冲突了  为了让正则识别我的点就是普通的点而不是限制符号     使用    转义符号:  \              写成@163\.com比如要匹配的内容有 \  ,如果你在正则中写 \,会被识别成转义符号这时候就要写 \\  可以理解成  第一个\是转义符号   第二个\就是它本身重...

2018-06-04 16:24:14 342

原创 正则表达式(上)

正则表达式让机器  严格  按照我给的正则表达式(限定条件),来寻找(抓取)符合我要求的内容Import re变量 = re.match(   ‘正则表达式’ ,’抓取的信息’ )获取:print(变量.group())1.匹配单个字符:匹配  一个  字节位置,下列的符号只表示这一个字节位置上是什么,没有带数量的限制符号# . 匹配任意1个字符(除了\n)# [ ] 匹配[ ]中列举的字符   ...

2018-06-04 16:22:58 289

原创 python爬虫(3)

'''1.多线程使用消息队列 queue来通信,把每个方法得到的数据放到消息队列中,每个方法就可以当做一个子线程开启,线程间使用queue来通信,即 put()放入,get()拿出,以前run函数中一套流程下来只是单线程,注意,使用while True就能保证线程始终执行,使用task_done()来保证主线程等待子线程的所有消息队列执行完,4个函数 生成url列表,请求,解析,保存,所以需要3个...

2018-06-02 23:51:05 357

原创 python爬虫(2)

thing = '爬虫解析''''1.数据分类非结构化:html和文本    解析:re和xpath结构和:json和xml      解析:json模块->python字典json模块:json肯定是一个字符串,这个字符串中是个字典 即' { } 'json转换json  -> python的dict   loads      加载成字典''''''2.正则re可是使用创建对象的方法...

2018-06-02 23:49:49 388

原创 协程

主进程的子进程,子进程有它自己的主线程,也就是说还可以开辟子线程迭代器   (__iter__方法:把类变成可迭代,方法里边创建迭代器和__next__方法:获取下一个值)生成器    结合列表推导式  g = (x * 2 for x in range(3))         注意yield 和 return  yield:代码执行到这个,看到yield暂停,等到再启动的时候执行yield后边的...

2018-06-01 14:02:14 1042

原创 进程

线程同步:使用join,其实只有一个线程执行udp端口占用有个立即释放 udp_socket.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEPORT,True)os模块除了文件夹操作还有什么,好像没有了暂时没看到线程共享全局变量,进程不共享全局变量,进程实际是在自己本身中拷贝了一个全局变量,自己做更改   所有线程有个Lock,进程没有Lock互相不影响线...

2018-06-01 14:00:11 415

原创 线程

并发:指的是任务数多余cpu核数,通过操作系统的各种任务调度算法,实现用多个任务“一起”执行(实际上总有一些任务不在执行,因为切换任务的速度相当快,看上去一起执行而已)并行:指的是任务数小于等于cpu核数,即任务真的是一起执行的变量 = threading(模块).Thread(方法)(target=函数名,没有括号,name='给线程起的名字',  传参数  少用元组args=(1,) 注意格式...

2018-06-01 13:59:13 314

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除