标题说的可能有点抽象,举个例子说明下。
网页A(部分):
pageA
XXXXX
2013-11-21
网页B(部分):
pageB
XXXXX
2013-11-20
网页C(部分):
pageC
YYYYY
2013-11-19
人工对比下可以发现网页A与B对比的话,.title和.lastupdate这两个span里的值不一样。我需要实现的就是能够通过代码识别出这两个位置,并且能够根据这个位置在网页C中提取出pageC和2013-11-19
p.s. 本问题不指定某个特殊语言,主要是探讨下思路。回答最好不要过于依赖某个语言自己独有的包或者类库。
再p.s. 我自己打算最终用node.js或者php实现。如果回答是别的语言的话我会自己“翻译”的,不用担心~
基于回答补充以下内容:
1.不同的定义仅局限在内容的不同,保证被比较的两者整个网页大体的结构是稳定一致的。
2.网页内可能会存在不规则的标签,包括但不限于未闭合的标签(如漏写一个)、自己定义一个标签类别()