自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 多线程、多进程等

多线程使用: def func(x): print(x) t= threading.Thread(target=func,args=(12,)) # 线程启动 t.start() # 主进程阻塞,等待子进程的退出 t.join() # 设置线程为主线程的守护线程 t.setDaemon() 多进程使用: from multiprocessing impor...

2019-09-24 22:36:00 94

转载 文件读写

### 文件读写 > with open("带后缀的文件名","读写模式") as 文件对象 #### 1. 读写模式 * r 只读 ,如果文件不存在,报错* w 写入,如果文件不存在,会自动创建,如果存在,内容会被覆盖* a 追加 ,文件存在,会在文件末尾追加内容* rb、wb、ab ,以二进制的方式读写文件 #### 2. 文件的复制 ```python"""图片、...

2019-09-24 22:18:00 101

转载 编码区别

1、美国人首先对其英文字符进行了编码,也就是最早的ascii码,用一个字节的低7位来表示英文的128个字符,高1位统一为0; 2、后来欧洲人发现尼玛你这128位哪够用,比如我高贵的法国人字母上面的还有注音符,这个怎么区分,得,把高1位编进来吧,这样欧洲普遍使用一个全字节进行编码,最多可表示256位。欧美人就是喜欢直来直去,字符少,编码用得位数少; 3、但是即使位数少,不同国家地区用不...

2019-09-24 22:13:00 126

转载 celery异步任务

 1.安装 pip install celery  2.创建celery_tasks文件夹,创建config配置文件和main文件      # 在config.py文件中配置中间人broker地址信息 - redis数据库信息 broker_url = "redis数据库地址信息" # 例如 broker_url = "redis://127.0.0.1:66...

2019-08-04 21:23:00 75

转载 redis过期策略与内存淘汰机制分析

过期策略:   我们在set key时,可以给一个expire time,就是过期时间   这段过期时间以后,redis对key删除使用:定期删除+惰性删除   定期删除指redis默认在100ms内随机抽取一些设置了过期时间的key,检查是否过期,过期就删除。   定期删除因为随机的,很多key没有删除,就用到惰性删除   惰性删除是在查询某个key时,redis检查下这个k...

2019-08-04 19:51:00 68

转载 爬虫数据去重-布隆过滤器

爬虫数据去重: 使用MD5生成指纹判断页面是否变化 数据存入mongodb,对关键字进行复合索引(千万以下) 对数据关键字进行哈希映射,生成指纹判断是否在redis的指纹集合中,并可通过是否过滤判断request对象是否进队,对request对象进行过滤(千万级别) 布隆过滤器,实现大数据去重(亿级别) 布隆过滤器:  实现: 先通过预期失误率p、期望样本数量n...

2019-08-04 19:11:00 238

转载 scrapy-redis数据去重与分布式框架

数据去重 生成指纹:利用hashlib的sha1,对request的请求体、请求url、请求方法进行加密,返回一个40位长度的16进制的字符串,称为指纹 fp = hashlib.sha1() fp.update(to_bytes(request.method)) fp.update(to_bytes(canonicalize_url(request.url))...

2019-08-03 20:23:00 125

转载 redis哨兵机制

哨兵机制存在的意义: 为了实现redis故障转移的自动化。自动发现,自动转移。不需要人工参与。 用户管理多个Redis服务器,该系统执行三个任务: 监控:哨兵会不间断的检查Master和Slave是否正常运行 提醒:当被监控的某个Redis出现问题,哨兵通过API向管理员或者应用程序发送通知 自动故障迁移:当一个Master不能正常工作,哨兵会开始一次故障迁移...

2019-08-03 20:01:00 85

转载 cookie池的维护

存储形式: 存储在redis中,“spider_name:username–password":cookie 建立py文件及包含方法: initcookies() 初始化所有账号的cookies,将所有账号对用进行登陆获取cookies并保存在redis中 update_cookie(spider_name,username,password) # 重新获取...

2019-08-03 19:46:00 158

转载 scrapy中间件

scrapy中间件分下载器中间件和爬虫中间件 下载器中间件(downloader middlewares):主要处理request请求发出去和response响应返回的一些回调。 方法:   process_request(self,request,spider):     当request请求经过下载器中间件的时候调用     返回为None:继续请求     返回为...

2019-08-03 18:58:00 139

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除