2021SC@SDUSC
从10.01.021开始着手分析Scarpy,到现在两个多月的时间,前前后后写了17篇分析文章与技术报告。加总起来五万余字,收获颇丰。
在软件工程应用这门课中,我选择的是Scarpy爬虫源码的分析,虽然之前有过爬虫小项目的代码经验,但逻辑清晰的,系统全面的分析一个现有的成熟框架,对我来说是一个困难问题。特别是因自己身体各方面原因,10月一整个月都奔波在医院与学校中,整个月中工作与学习的时间屈指可数。在这样的情况下,用极为有限的时间,系统的分析整个成熟的框架,几乎成为了不可能的任务。对我提出了巨大的挑战。
各方面的,家人也好,朋友也好,对我提供的支持与帮助,我十分感激。帮我度过了身体原因最痛苦最艰难的时间,深表感谢。当然了,在英文互联网上关于Scrapy已有的资料,也是我成功完成这门课程的一大助力。
言归正传,在这17篇分析文章中,我分为了三个部分,循序渐进的层层分析,吃下了Scrapy爬虫框架这个“大螃蟹”。
首先是1.2篇源码,通过对于Scrapy的前置框架(这个词可能不是那么准确)的分析,打开这门课程的大门。
然后层层分析,通过源码,文档,实例,demo,单元测试,掌握了这门框架的基本内容。(直到博客第九篇)
最后的部分,我结合Scrapy的官方和非官方文档,对于这个框架中的重点两部分:ITEM PIPELINE 以及 REQUESTS & RESPONSES 两部分进行重点分析,摸透了源码框架中具体的类和方法。
不过,还是有一点遗憾,Scrapy爬虫使用的趋势逐渐减少,我也没有能够通过一个具体的大项目来剖析爬虫中关于分布式爬虫,反反爬虫这样的一些内容,是一个小小遗憾。
Altogether,以上18篇博客,展现了我在这门课程的学习,我也在源码的阅读与实践中,收获颇丰。感谢教授开设的软件工程实践与应用这门课程,我从中学到了很多。