afwkstp8735-CSDN博客

转载多线程、多进程等

多线程使用： def func(x): print(x) t= threading.Thread(target=func,args=(12,)) # 线程启动 t.start() # 主进程阻塞，等待子进程的退出 t.join() # 设置线程为主线程的守护线程 t.setDaemon() 多进程使用： from multiprocessing impor...

2019-09-24 22:36:00 94

转载文件读写

### 文件读写 > with open("带后缀的文件名"，"读写模式") as 文件对象 #### 1. 读写模式 * r 只读，如果文件不存在，报错* w 写入，如果文件不存在，会自动创建，如果存在，内容会被覆盖* a 追加，文件存在，会在文件末尾追加内容* rb、wb、ab ，以二进制的方式读写文件 #### 2. 文件的复制 ```python"""图片、...

2019-09-24 22:18:00 101

转载编码区别

1、美国人首先对其英文字符进行了编码，也就是最早的ascii码，用一个字节的低7位来表示英文的128个字符，高1位统一为0； 2、后来欧洲人发现尼玛你这128位哪够用，比如我高贵的法国人字母上面的还有注音符，这个怎么区分，得，把高1位编进来吧，这样欧洲普遍使用一个全字节进行编码，最多可表示256位。欧美人就是喜欢直来直去，字符少，编码用得位数少； 3、但是即使位数少，不同国家地区用不...

2019-09-24 22:13:00 126

转载 celery异步任务

　1.安装 pip install celery 　2.创建celery_tasks文件夹，创建config配置文件和main文件　　　　 # 在config.py文件中配置中间人broker地址信息 - redis数据库信息 broker_url = "redis数据库地址信息" # 例如 broker_url = "redis://127.0.0.1:66...

2019-08-04 21:23:00 75

转载 redis过期策略与内存淘汰机制分析

过期策略：　　我们在set key时，可以给一个expire time，就是过期时间　　这段过期时间以后，redis对key删除使用：定期删除+惰性删除　　定期删除指redis默认在100ms内随机抽取一些设置了过期时间的key，检查是否过期，过期就删除。　　定期删除因为随机的，很多key没有删除，就用到惰性删除　　惰性删除是在查询某个key时，redis检查下这个k...

2019-08-04 19:51:00 68

转载爬虫数据去重-布隆过滤器

爬虫数据去重：使用MD5生成指纹判断页面是否变化数据存入mongodb，对关键字进行复合索引（千万以下）对数据关键字进行哈希映射，生成指纹判断是否在redis的指纹集合中，并可通过是否过滤判断request对象是否进队，对request对象进行过滤（千万级别）布隆过滤器，实现大数据去重（亿级别）布隆过滤器：　实现：先通过预期失误率p、期望样本数量n...

2019-08-04 19:11:00 238

转载 scrapy-redis数据去重与分布式框架

数据去重生成指纹：利用hashlib的sha1，对request的请求体、请求url、请求方法进行加密，返回一个40位长度的16进制的字符串，称为指纹 fp = hashlib.sha1() fp.update(to_bytes(request.method)) fp.update(to_bytes(canonicalize_url(request.url))...

2019-08-03 20:23:00 125

转载 redis哨兵机制

哨兵机制存在的意义：为了实现redis故障转移的自动化。自动发现，自动转移。不需要人工参与。用户管理多个Redis服务器，该系统执行三个任务：监控：哨兵会不间断的检查Master和Slave是否正常运行提醒：当被监控的某个Redis出现问题，哨兵通过API向管理员或者应用程序发送通知自动故障迁移：当一个Master不能正常工作，哨兵会开始一次故障迁移...

2019-08-03 20:01:00 85

转载 cookie池的维护

存储形式：存储在redis中，“spider_name:username–password":cookie 建立py文件及包含方法： initcookies() 初始化所有账号的cookies，将所有账号对用进行登陆获取cookies并保存在redis中 update_cookie(spider_name,username,password) # 重新获取...

2019-08-03 19:46:00 158

转载 scrapy中间件

scrapy中间件分下载器中间件和爬虫中间件下载器中间件（downloader middlewares）:主要处理request请求发出去和response响应返回的一些回调。方法：　　process_request(self,request,spider)：　　　　当request请求经过下载器中间件的时候调用　　　　返回为None：继续请求　　　　返回为...

2019-08-03 18:58:00 139

afwkstp8735的博客