自学Python?一个爬虫项目就够了(一)

大道至简的python爬虫

项目介绍

本人是一位从事多年Java以及JavaScript开发的程序员。第一次接触python了解基础语法以及语言特性之后,发现python的魅力就是大道至简,强迫症程序员的福音。
话不多说,此项目是基于requestsyamlxpath的一个配置化的python爬虫,可以通过简单配置即可实现网址数据的爬取,适合有一定编程基础的同学学习研究。(如果你的编程基础薄弱,这个项目也足够你装逼了,跟着我对项目的分析,一定能提高你的python水平)
项目中使用了一些python特有的语法思维和设计。如:yield生成器以及动态模块导入等,我相信通过这个项目的学习,足够带你入门python。

项目下载

https://github.com/ThirteenR/Qspider

项目运行

终端执行如下命令:(XX为配置名,参考项目更目录下的readme)

python main.py XX

项目结构

如下图
项目包含两大模块:

  • 基础模块
  • 补充模块

基础模块中包含:

  • 资源路径管理器
  • 页面下载器
  • 数据解析器
  • 数据保存管理器
  • 爬虫调度器

补充模块包含:(自定义模块的位置)

  • 数据模型(继承自数据保存管理器)

项目机构设计图

数据存储

本项目内置了两个数据存储模式分别是CSVMySQL,后续更新中我将带领大家开发自定义的数据存储模块

博客更新

后续我将持续更新,通过代码分析,详细介绍本项目。如果你对本项目感兴趣,就请点赞收藏,你的支持就是博主持续更新的动力。希望通过此项目我们共同学习和进步,谢谢!

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值