敏捷冲刺四

最新推荐文章于 2024-08-08 18:32:03 发布

weixin_30851867

最新推荐文章于 2024-08-08 18:32:03 发布

阅读量94

点赞数

文章标签：数据库前端爬虫 ViewUI

原文链接：http://www.cnblogs.com/qin-yu/p/9974898.html

版权

敏捷冲刺四

Task1：团队TSP

团队任务	预估时间	实际时间	完成日期
搜索引擎相关内容了解	300	500	11-5
数据库表的创建	180	150	11-8
学院网站的爬取	210	460	11-10
建立数据库索引	190	--	--
代码测试	180	--	--
前端页面的设计	240	--	--
前后端的交互	300	--	--
搜索引擎测试	260	--	--

Task2：描述项目进展

成员	任务安排	预期任务量/小时
秦玉（组长）	分配任务，前端设计	180
陈晓菲	和小组人员一起编写爬虫代码，攻克难关	180
韩烨	前端模板的设计	180
姚雯婷	和小组人员一起编写爬虫代码，攻克难关	180
罗佳	完成团队TSP表格，完成第四次冲刺博客园，实践、初步编写代码	180
高天	完成团队TSP表格，完成第四次冲刺博客园，实践、初步编写代码	180

Task3：目前面临的困难

这次的困难主要出现在爬虫的问题上，主要有下面几个方面：

问题一：

在进入回调函数后，但数据库里仍然出现不了数据。

问题二：

数据库里的数据只有13条。

Task4：目前取得的成果

问题一解决方法：

首先先对xpath的正确性进行测试，尝试对获取到的url进行输出，发现有网址输出，排除解析错误的原因。
对数据库的连接进行了确定，发现可以连接成功。
最后发现真正的原因是因为前后修改代码的时候，有部分冗余代码忘记注释，导致写入数据库失败，注释掉冗余代码后，成功写入数据库。

问题二解决方法：

通过对能够写入数据库的网页以及写入不进数据库的网页进行查看，如下图，

发现只有红色标题的网页能够被爬取，继续对源代码进行查看，发现了根本原因：

两个网页虽然都是将标题放在class为titlestyle124904，但是！！！我们学院为了设置红色标题，居然随意的直接强行给标题加一个span标签……(我们可是正儿八经的计算机学院啊喂)，然后导致xpath的设置

item_loader.add_xpath("title", "//td[@class='titlestyle124904']/span/text()")

只对span标签下有标题的内容适用了。

于是将xpath进行修改：

item_loader.add_xpath("title", "//td[@class='titlestyle124904']/text()")

于是就可以对红黑标题的内容都进行爬取了，但是对于红色标题的网页，爬取不到题目，能够爬取到其他的属性。

Task5：项目燃尽图

Task6：提交历史截图

Task7：站立式会议照片

转载于:https://www.cnblogs.com/qin-yu/p/9974898.html

weixin_30851867

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
敏捷冲刺四

敏捷冲刺四Task1：团队TSP团队任务预估时间实际时间完成日期搜索引擎相关内容了解30050011-5数据库表的创建18015011-8学院网站的爬取21046011-10建立数据库索引190----代码测试180----前端页面的设计240----前后端的交互300----搜索引擎测...
复制链接

扫一扫