我似乎找不到关于我的特定问题的问题,所以请原谅我,如果这是以前问过的!
总之,我正在编写一个脚本来遍历一组URL,并给我一个具有唯一参数的惟一URL的列表。
我遇到的问题实际上是比较参数以消除多个重复。这有点难解释,所以下面的例子可能是:
假设我有一个这样的网址列表在hxxp://www.somesite.com/page.php?id=3&title=derp
在hxxp://www.somesite.com/page.php?id=4&title=blah
在hxxp://www.somesite.com/page.php?id=3&c=32&title=事情
在hxxp://www.somesite.com/page.php?b=33&id=3
我让它将每个URL解析为一个列表列表,因此最终我得到了一个如下所示的列表:sort = [['id', 'title'], ['id', 'c', 'title'], ['b', 'id']]
我需要找到一种方法,在我的列表中只列出两个列表:
^{pr2}$
到现在为止,我有一点要解决它,我知道我已经很接近了,我已经用头撞了这几天了:(。有什么想法吗?
提前谢谢!:)
编辑:很抱歉没有说清楚!这个脚本的目的是为web应用程序在spidering后找到唯一的入口点。基本上,如果一个URL有3个唯一的入口点['id', 'c', 'title']
我更喜欢具有两个唯一入口点的相同链接,例如:['id', 'title']
所以我需要我的新列表来消除2的列表,而只在较小的变量在较大的集合中时,我更喜欢有3的列表。如果还不清楚,让我知道,并感谢你的快速反应!:)