刚才一朋友有一个需求,就是抽取web页面列表的内容
例如论坛的帖子列表,他要求通用化的
简单地想了一下,思路如下:
利用HtmlAgilityPack (C#) 把页面的html变成DOM树以方便操作
遍历节点,计算节点之间的相似度
如果节点的相似度比较高的就可以认为是相似的节点
而且通过DOM树可以知道节点是否同级
如果同级或者层次相同的话
那么基本上就是列表里面的节点了
简单思路,欢迎讨论
转载于:https://www.cnblogs.com/TtTiCk/archive/2008/05/30/1210807.html