简介
- 这几篇博客是一个系列,最终目标是能独立编写爬虫项目
- 技术点包括反爬处理手段、正则表达式使用、抓包技术、模拟请求等,熟练掌握urllib模块,最终还要学习Scrapy框架
- 当然,也可能会结合其他模块,提升效率必须要有模块化的思想
- 如果你是小白,想快速感受一下爬虫到底要怎么做,可以看我的github博客
Python基础
- 这里要用到的Python基础包括
- 基础语法
- 函数及模块
- 文件操作
- 异常处理
- 面向对象编程
- 在我的Python基础专栏有详细介绍,这里就不赘述,但这些东西是必须要会的!
Web基础
- 爬虫是在爬网页信息(当然也包含APP等),了解基本的网页HTML+CSS代码是必须的
- 网页分类:
- 静态网页(包括一些拖管博客)
- 动态网络
- WebService(RestAPI)
- 这部分在我的PythonWeb专栏