爬虫
め追光者
这个作者很懒,什么都没留下…
展开
-
监视API的速率限制
大多数API都存在速率限制。即你在特定的时间内可执行的请求数存在限制。 URL:https://api.github.com/rate_limit https://api.github.com/rate_limit { "resources": { "core": { "limit": 60, "remaining": 60, "reset": ...原创 2019-12-19 21:47:54 · 578 阅读 · 0 评论 -
requests下的text和content的区别。
response.text 解码过的数据。 类型:str 解码类型:根据HTTP头部响应的编码做出有根据的推测,推测的文本编码。 改变编码的方式:response.encoding=”gbk” 用途:response.text返回的是Unicode型数据;一般用来获取文本response.text; response.content 类型:bytes 解码类型:没有指定 修改编码的方式:r...原创 2019-12-19 20:24:03 · 192 阅读 · 0 评论 -
提升性能、python多线程、多进程机制
简介: 线程和进程: 进程: 具有独立功能的程序在数据集合上的一次动态执行过程 系统进行资源分配和调度的一个独立单位 任务调度的最小单位 线程: 线程是CPU调度和分派的基本单位 能独立运行 基本上不拥有系统资源, 可与同一进程的其他线程共享进程的资源 **线程与进程的联系:**下面 线程被称为轻量级进程,和进程一样拥有独立的执行控制 一个进程包含多个线程,线程是进程的一个实体 一个线程可以创建和...原创 2019-12-10 22:14:29 · 161 阅读 · 0 评论 -
Nutch案例1
import requests from bs4 import BeautifulSoup import os import csv import time urls=[] urlls=[] datas=[] i=0 def Download(name,url,dirname): dir=dirname+"//" path=os.path.join(dir,name) re...原创 2019-12-10 15:23:46 · 128 阅读 · 0 评论