大道至简的python爬虫
项目介绍
本人是一位从事多年Java以及JavaScript开发的程序员。第一次接触python了解基础语法以及语言特性之后,发现python的魅力就是大道至简,强迫症程序员的福音。
话不多说,此项目是基于requests,yaml,xpath的一个配置化的python爬虫,可以通过简单配置即可实现网址数据的爬取,适合有一定编程基础的同学学习研究。(如果你的编程基础薄弱,这个项目也足够你装逼了,跟着我对项目的分析,一定能提高你的python水平)
项目中使用了一些python特有的语法思维和设计。如:yield生成器以及动态模块导入等,我相信通过这个项目的学习,足够带你入门python。
项目下载
https://github.com/ThirteenR/Qspider
项目运行
终端执行如下命令:(XX为配置名,参考项目更目录下的readme)
python main.py XX
项目结构
如下图:
项目包含两大模块:
- 基础模块
- 补充模块
基础模块中包含:
- 资源路径管理器
- 页面下载器
- 数据解析器
- 数据保存管理器
- 爬虫调度器
补充模块包含:(自定义模块的位置)
- 数据模型(继承自数据保存管理器)
数据存储
本项目内置了两个数据存储模式分别是CSV和MySQL,后续更新中我将带领大家开发自定义的数据存储模块
博客更新
后续我将持续更新,通过代码分析,详细介绍本项目。如果你对本项目感兴趣,就请点赞收藏,你的支持就是博主持续更新的动力。希望通过此项目我们共同学习和进步,谢谢!