日期:2020-11-25笔记
1.判断网页是否允许爬虫
大众点评网为例
from urllib.robotparser import RobotFileParser
rp=RobotFileParser()
rp.set_url('http://www.dianping.com/')
rp.read()
print(rp.can_fetch('*','http://www.dianping.com/'))
2.抓取网站cookie
百度为例
import http.cookiejar,urllib.request
cookie=http.cookiejar.CookieJar()
handler=