一、文章说明
本文是在学习过程中的笔记分享,开发环境是win7,Python3,编辑器pycharm,文章中若有错误欢迎指出、积极讨论。
另外,推荐一个比较好的爬虫教程
二、课程基础
1、HTML和CSS
爬虫和网页内容处处打交道,首先要掌握一部分前端内容。参考教程:W3school在线教程
2、xpath解析网页
掌握了上面的知识,下面就可以开始下一步学习了。如何解析网页?这里我推荐BeautifulSoup和xpath,掌握了这两种解析方法基本上就够了,当然,还有一种必须掌握:正则表达式,有点简单粗暴,但屡试不爽
3、http响应状态
2xx:成功
3xx:调转
4xx:客户端错误
5xx:服务