爬虫顺序 优化爬虫(静态) user-agent的使用代理timeout请求转码问题post请求ajax异常处理cookie 内容的提取 HTML rexpath(DOM)beautifulSoup JSON json ,jsonpath,dump,dumps 动态页面抓取 slennium + ChromJS Scrapy框架学习 sprider 基础类 itemspipelinessettings CrawlSpider 类 LinkExtractorRule