DEDE采集文章重复标题URL内容重复

DEDE采集文章重复标题URL内容重复

文件路径:include/dedehttpdown.class.php

采集网址类似:

http://www.a.com/b.php?url=a/resources/43/356.html

DEDE源码实际采集的URL会变成下面这样,并不会带上后面的query参数:

http://www.a.com/b.php
function PrivateStartSession($requestType="GET")
    {
        if ($this->m_scheme == "https") {
            $this->m_port = "443";
        }

//这里是原来的拼接方式【去除了query】所以url不完整,也就是说带参数的详情页无法采集,所以修改下,例Array ( [scheme] => http [host] => www.xx.com [path] => /b.php [query] => url=a%2Fresources%2F41%2F59.html )	
		$url	= $this->m_scheme.'://'.$this->m_host.':'.$this->m_port.$this->m_path;	
		$url	= $this->m_url;//加上这行。直接使用原始URL采集。

        if (function_exists('curl_init') && function_exists('curl_exec')) {
            $this->m_ch = curl_init();
            curl_setopt($this->m_ch, CURLOPT_URL, $url);//

所以做下修改,如上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值