PHP抓取淘宝店铺等级、评分

要抓取淘宝店铺的内容只能是通过传过来的淘宝URL来抓取。所以我们先要有一个URL。

 

有了URL之后就可以开始抓取工作了。根据URL的域名不同需要把URL分成两个部分,一个是淘宝的店铺,一个是天猫的店铺。截取URL的域名这里就不说了,大家不会的自行百度。之所以这么做是因为淘宝和天猫的店铺DOM结构是不一样的。

 

先说简单的天猫。

天猫的店铺等级在一个class名为tm-shiop-age-content中,所以用phpQuery的pq('.tm-shiop-age-content')->text()可以直接获取天猫店铺的等级。

 

然后就是店铺的评分。

天猫店铺的评分是在一个class为main-info的div中,所以也是直接pq('.main-info')->text()就可以了,返回的数据会是“描述4.8服务4.7物流4.7”这样的数据。

 

下面说比较麻烦的淘宝。

首先淘宝的店铺等级分为多种,比如皇冠、钻石等等,而且这些等级前面还有数量。先看一下淘宝店铺的店铺等级能在页面上哪里能找到:

等级信息在这里,第一个和第三个class是固定的,变化的是第二个class,都是形如tb-rank-xxx的形式,其中的对应关系:

crown:金冠

cap:皇冠

blue:钻石

red:红心

 

所以我们要根据这个class的不同的值来获取淘宝店铺的等级。

pq('.shop-rank .rank-icon-v2')->attr('class'),我们先把这个class里面的值拿过来。注意要从它的上一级,shiop-rank取,因为企业店铺的等级在页面上出现了两次,而我们只需要一个就够了。

接下来还要获取这个等级前的数量。

这个a标签里面的i的数量就对应了对应等级的数量。那我们就把a标签里的i标签也获取到:pq('.shop-rank .rank-icon-v2')->html()。

有了这两个东西我们就ok了,编写一个函数处理这两个内容,返回我们能看懂的店铺等级的值:

trimAll函数是替换抓取到的HTML页面中的空格的,我的上一篇抓取百度数据的博客中有这个函数,这里就不再贴一遍了。

最后我们会得到这样的数据:5皇冠。

 

然后就是抓取淘宝店铺的评分了。

淘宝店铺的评分在一个class为mini-dsr的a标签当中,我们直接获取这个标签当中的文本:pq('.mini-dsr')->text()。

抓取下来会发现变成了乱码。这是因为淘宝的页面编码是gbk,而phpQuery只认识GBK2312并不认识GBK,会帮我们自动转化为ISO-8859-1的编码,所以还需要讲抓取下来的数据转换一下编码。

先将数据转化为utf8,然后再转会GBK2312就OK了。

$str = mb_convert_encoding($str,'ISO-8859-1','utf-8');

 

$str = mb_convert_encoding($str,'utf-8','GBK');

这样我们就得到了上面天猫一样的评分数据了。

 

这是以上我在抓取的时候的方法以及遇到的问题,欢迎其他小伙伴有更好的方法一起讨论。

转载于:https://my.oschina.net/u/2898364/blog/848516

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值