v1.0.0测试结论以及修改方案
- 测试结论:由于我在第二次爬自己的博客前使用markdown的方式写了新的一篇博客,导致第二次爬的时候出现博客只有一截的问题和将博客之外的内容爬了进来。
- 修改方案:在获取所有博客的url的时候对新写的博客进行过滤,但是这个不是长久之计,因为以后如果有新的博客加进来的时候需要对过滤器进行更新。(提别提醒)
v1.0.1测试结论以及修改方案
- 问题一
测试结论:
图片问题
83064233
81588384
… …
由于csdn上图片有两种urlhttps://img-blog.csdn.net
和https://img-blog.csdnimg.cn
但是检索只检索了其中一种
**修改方案:**由于图片错误存在挺多的博客上,因此只能爬虫代码进行优化。
-
问题二
**测试结论:**另外其中有一种url只有问号前面的能把图片显示出来加上后面的就显示不出来了,这个是csdn内部的原因,因为csdn原来的博客就存在这个问题。
**修改方案:**由于影响不大,我直接将csdn上那些出错的博客修改一下图片属性,然后保存,以后的版本应该就可以不要考虑这一点了 -
问题三
测试结论:
内容问题:
存在的博客id:
80928198
80928426
80928693
80930423
80930685
由于以前写的文章里面有div 标签,我爬的时候没有考虑到,因此导致上面那些文章出现博客只有一截的现象。
**修改方案:**需要对这部分文章进行修改,因为文章不多,csdn以后的文章也不会出现同样的错误,因此没必要对正则表达式进行优化,手动将文章修改就好。