- Robots协议(不是强制性的)
淘宝的http://www.taobao.com/robots.txt
User-agent: Baiduspider #伪装成百度爬虫,浏览器里设置里面有
Allow: /article
Allow: /oshtml
Allow: /ershou
Allow: /$
Disallow: /product/ #不允许爬产品
Disallow: /
sitemap:站点地图。提供友好的爬取站点
- urllib包
urllib.request详解
实际跳的路径
request类构建请求
编码
post是和正文一起提交
httpbin.org 测试网站