爬虫提纲 基本的HTML语言知识(了解href等大学计算机课程) POST、GET概念 一些js的知识 第1个正则表达式:背包技术,而且必须是最基本的。 XPATH分析语言 Beautifulsoup 请求与响应 爬虫与反爬虫 urllib库 requests库 爬虫框架实现 破解反爬技术 代理池实现 模拟登陆 pyspider框架 APP的抓取 Scrapy框架