敏捷冲刺四

敏捷冲刺四


Task1:团队TSP

团队任务预估时间实际时间完成日期
搜索引擎相关内容了解30050011-5
数据库表的创建18015011-8
学院网站的爬取21046011-10
建立数据库索引190----
代码测试180----
前端页面的设计240----
前后端的交互300----
搜索引擎测试260----

Task2:描述项目进展

成员任务安排预期任务量/小时
秦玉(组长)分配任务,前端设计180
陈晓菲和小组人员一起编写爬虫代码,攻克难关180
韩烨前端模板的设计180
姚雯婷和小组人员一起编写爬虫代码,攻克难关180
罗佳完成团队TSP表格,完成第四次冲刺博客园,实践、初步编写代码180
高天完成团队TSP表格,完成第四次冲刺博客园,实践、初步编写代码180

Task3:目前面临的困难

这次的困难主要出现在爬虫的问题上,主要有下面几个方面:

问题一:

在进入回调函数后,但数据库里仍然出现不了数据。

问题二:

数据库里的数据只有13条。

Task4:目前取得的成果

问题一解决方法:

  • 首先先对xpath的正确性进行测试,尝试对获取到的url进行输出,发现有网址输出,排除解析错误的原因。
  • 对数据库的连接进行了确定,发现可以连接成功。
  • 最后发现真正的原因是因为前后修改代码的时候,有部分冗余代码忘记注释,导致写入数据库失败,注释掉冗余代码后,成功写入数据库。

问题二解决方法:

通过对能够写入数据库的网页以及写入不进数据库的网页进行查看,如下图,
1099326-20181118021604688-1470093473.png
发现只有红色标题的网页能够被爬取,继续对源代码进行查看,发现了根本原因:
1099326-20181118021620654-1979565586.png
1099326-20181118021635103-785763929.png
两个网页虽然都是将标题放在class为titlestyle124904,但是!!!我们学院为了设置红色标题,居然随意的直接强行给标题加一个span标签……(我们可是正儿八经的计算机学院啊喂),然后导致xpath的设置

item_loader.add_xpath("title", "//td[@class='titlestyle124904']/span/text()")

只对span标签下有标题的内容适用了。

于是将xpath进行修改:

item_loader.add_xpath("title", "//td[@class='titlestyle124904']/text()")

于是就可以对红黑标题的内容都进行爬取了,但是对于红色标题的网页,爬取不到题目,能够爬取到其他的属性。


Task5:项目燃尽图

1099326-20181117180619308-434333450.png


Task6:提交历史截图

1099326-20181117182337750-154058415.png


Task7:站立式会议照片

1099326-20181124175434030-1617482028.png

转载于:https://www.cnblogs.com/qin-yu/p/9974898.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值