php采集多个列表网址,火车头采集列表地址过滤掉PHPSESSID的方法

最近发现网站用火车头采集的内容里有很多重复的内容。如下图,标题、内容都一样。但发布日期不一样。

1f4072e1f04bd1ea979c4859fd60a1df.png

采集器里面我明明设置检测重复网址了,如下图

3c7f56bdeb8feaa738107c66661f015c.png

最后检查本地采集任务数据发现,采集页网址前面自动添加了?PHPSESSID=u3i1b955mq9864i3qa4j47h184这段字符。

如果直接通过浏览器访问的话,发现列表页的文章的地址是都是正常html地址,但通过采集器的话,获取的地址都会在.htm后面添加上?PHPSESSID=u3i1b955mq9864i3qa4j47h184这种字符。

2acbf27dab63c1f647f18e0a3ad08144.png

并且这个字符是随机自动变。这样的话,就会出重复了。因为地址后面的PHPSESSID不一样,所以采集器就判断不出这篇文章是不是重复的。咨询官方,技术支持说用网址拼接,并给出规则 ,用她给的规则

脚本规则:

实际连接:http://www.abccom/[参数1]

结果测试不行。

经研究发现,地址是随机变的,这个可以当一个参数,但?PHPSESSID=这个是固定不变的,后面的数值又是随机的,可用(*)替换。一点测试,可以了。

文章的地址是:/article-900825.html?PHPSESSID=u3i1b955mq9864i3qa4j47h184

拼接地址如下:

1bbe173027635eb7d97600a156b84442.png

然后测试网址。正常了。这样就不会出现重复的内容了。

0d6b34df2ef9f23c861aaae673feced9.png

喜欢 (0)or分享 (0)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值