爬虫
め追光者
这个作者很懒,什么都没留下…
展开
-
监视API的速率限制
大多数API都存在速率限制。即你在特定的时间内可执行的请求数存在限制。URL:https://api.github.com/rate_limithttps://api.github.com/rate_limit{ "resources": { "core": { "limit": 60, "remaining": 60, "reset": ...原创 2019-12-19 21:47:54 · 576 阅读 · 0 评论 -
requests下的text和content的区别。
response.text 解码过的数据。类型:str解码类型:根据HTTP头部响应的编码做出有根据的推测,推测的文本编码。改变编码的方式:response.encoding=”gbk”用途:response.text返回的是Unicode型数据;一般用来获取文本response.text;response.content类型:bytes解码类型:没有指定修改编码的方式:r...原创 2019-12-19 20:24:03 · 190 阅读 · 0 评论 -
提升性能、python多线程、多进程机制
简介:线程和进程:进程:具有独立功能的程序在数据集合上的一次动态执行过程系统进行资源分配和调度的一个独立单位任务调度的最小单位线程:线程是CPU调度和分派的基本单位能独立运行基本上不拥有系统资源, 可与同一进程的其他线程共享进程的资源**线程与进程的联系:**下面线程被称为轻量级进程,和进程一样拥有独立的执行控制一个进程包含多个线程,线程是进程的一个实体一个线程可以创建和...原创 2019-12-10 22:14:29 · 159 阅读 · 0 评论 -
Nutch案例1
import requestsfrom bs4 import BeautifulSoupimport osimport csvimport timeurls=[]urlls=[]datas=[]i=0def Download(name,url,dirname): dir=dirname+"//" path=os.path.join(dir,name) re...原创 2019-12-10 15:23:46 · 125 阅读 · 0 评论