python实现爬取名人名言
技术路线:requests-re
使用time库对爬取时间进行计时
使用input进行输入爬取的页码范围
使用yield生成器,更好的节省内存空间,响应速度更快
使用yield一般与循环搭配到一起
采用json文本进行写入,此时的文件写入方式记得设置为追加写a,如果是覆盖w,那么就会每一次生成一个字典就会覆盖之前写的。
代码如下:
import requests
import re
import json
import time
def gethtml(url, kv):
r = requests.get(url, params=kv)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r