csdn博客迁移 版本一结论书

v1.0.0测试结论以及修改方案

  • 测试结论:由于我在第二次爬自己的博客前使用markdown的方式写了新的一篇博客,导致第二次爬的时候出现博客只有一截的问题和将博客之外的内容爬了进来。
  • 修改方案:在获取所有博客的url的时候对新写的博客进行过滤,但是这个不是长久之计,因为以后如果有新的博客加进来的时候需要对过滤器进行更新。(提别提醒)

v1.0.1测试结论以及修改方案

  • 问题一
    测试结论:
    图片问题
    83064233
    81588384
    … …
    由于csdn上图片有两种url https://img-blog.csdn.nethttps://img-blog.csdnimg.cn但是检索只检索了其中一种

**修改方案:**由于图片错误存在挺多的博客上,因此只能爬虫代码进行优化。

  • 问题二
    **测试结论:**另外其中有一种url只有问号前面的能把图片显示出来加上后面的就显示不出来了,这个是csdn内部的原因,因为csdn原来的博客就存在这个问题。
    **修改方案:**由于影响不大,我直接将csdn上那些出错的博客修改一下图片属性,然后保存,以后的版本应该就可以不要考虑这一点了

  • 问题三
    测试结论:
    内容问题:
    存在的博客id:
    80928198
    80928426
    80928693
    80930423
    80930685
    由于以前写的文章里面有div 标签,我爬的时候没有考虑到,因此导致上面那些文章出现博客只有一截的现象。
    **修改方案:**需要对这部分文章进行修改,因为文章不多,csdn以后的文章也不会出现同样的错误,因此没必要对正则表达式进行优化,手动将文章修改就好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值