我是第一次在这里尝试获取一些Python技能的海报;请对我友好:-)如何循环遍历Python中的html表格数据集
虽然我对编程概念并不陌生(我之前一直在搞PHP),但对Python的过渡对我来说变得有点困难。我想这主要是因为我缺乏大部分 - 如果不是全部 - 对普通“设计模式”(?)等的基本理解。
说了这么多,就是这个问题。我目前的一部分工作是利用美丽的汤来写一个简单的刮板。要处理的数据与下面列出的数据具有相似的结构。
2011-01-01 | |
Headline | Link |
Headline | Link |
2011-01-02 | |
Headline | Link |
Headline | Link |
的主要问题是,我根本不能让我围绕着如何1)保持当前的日期(TR-> TD类=“日期”的轨迹),而2头)循环遍历项目后续的tr:s(tr class =“item” - > td class =“headline”和tr class =“item” - > td class =“link”)以及3)将处理后的数据存储在一个数组中。
此外,所有数据将被插入数据库,其中每个条目必须包含以下信息;
日期
标题
链接
注意污物:荷兰国际集团的数据库不是问题的一部分,我只是为了更好地说明什么,我想提到这个在这里完成:-)
现在,有很多不同的方法来皮肤猫。因此,虽然解决手头问题的方法确实非常受欢迎,但如果有人愿意详细阐述为了“攻击”这类问题而使用的实际逻辑和策略,我将非常感激:-)
最后但并非最不重要的是,对于这样一个不好的问题抱歉。
2011-01-07
Mattias