PHP CURL 爬取大众点评app中的点评

先在大众点评APP找一个想爬取的点评链接

点评链接: 四颗星,Las Tapas还是很赞的,值得推荐! https://m.dianping.com/ugcdetail/732363063?sceneType=1&bizType=1&utm_source=ugcshare
下面就根据这个链接来举例爬取吧。

处理链接

//将文字部份去掉
preg_match('/http(.*?)ugcshare/i', $url, $um);
$url = $um[0];
//更改sceneType的状态值
$url = str_replace('sceneType=1', 'sceneType=0', $url);

注意:这里讲解一下为什么要替换sceneType的状态值
sceneType=1的时候
抓取的是点评外面的小图(但小图是没有大众点评水印的)
sceneType=0的时候
抓取的是点评的原图(但是加了水印的原图)
不过水印的问题可以解决。

配置抓取点评的CURL方法

其实抓取大众点评并不难。但没有难点的话我也就没必要写了。
抓取大众点评难点有两个
(1)难点一 需要解决验证的问题。
经常抓取点评时,会出现安全验证。当然如果是在本地抓着玩,那没什么问题,直接使用本地浏览器去解除安全验证就可以了。
但是如果你需要上传到线上服务器上。那你必须的使用IP代理了。当然,有钱任性,可以去花钱搞个IP代理。如果不想花钱那就按照我以下的方式,代理线上的IP把。当线上抓取失败的时候,就代理线上IP在本地访问一下大众点评网页然后手动解除验证就可以了。
我呢好学如果要是有其它方法可以跳过这个验证,并且不需要花钱。可以教教我。
(2)难点二 就是匹配数据了
其实也不叫难点,既然你要爬取点评,那理所当然你就得去匹配数据呀。当然关于抓取的点评图片是有水印的。只要认真发现。你可以解决的。

在Linux里安装Tinyproxy用于代理服务器
安装命令:yum install tinyproxy

然后配置tinyproxy:
需要注意,这里需要以管理员的身份打开
首先需要先找到tinyproxy.conf配置文件目录,这里我是以我的安装目录打开的
sudo vim /etc/tinyproxy/tinyproxy.conf

Allow:
输入允许代理的IP
百度ip然后就能得到自己的IP。就是指线上允许这个IP代理自己。
设置好后保存退出。在重启tinyproxy
sudo service tinyproxy restart
在这里插入图片描述

$header = array(
            "User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.2 Safari/605.1.15"
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值