php抓取商品信息,PHP採集抓取淘寶網單個商品信息的方法思路

調用淘寶的數據可以使用淘寶提供的api,如果只需調用淘寶商品圖片名稱等公開信息在自己網站上,使用php中的 file_get_contents 函數實現即可。

思路:

file_get_contents(url) 該函數根據 url 如 http://www.baidu.com 將該網頁內容(源碼)以字元串形式輸出(一個整字元串),然後配合preg_match,preg_replace等這些正則表達式操作就可以實現獲取該url特定div,img等信息了。當然前題是淘寶在單個商品頁面的結構是固定的,如500圖的img中id就是J_ImgBooth!

具體實現方法:(獲取500圖,名稱,價格,屬性及商品描述)

$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //將url地址上頁面內容保存進$text

A.獲取500圖:

preg_match('/]*id="J_ImgBooth"[^r]*rc="([^"]*)"[^>]*>/', $text, $img);

//運用正則抓取img標籤中id為J_ImgBooth的img,$img[0]為該500圖img標籤,$img[1]為500圖的圖片地址;

B. 獲取名稱:

preg_match('/

([^<>]*)/', $text, $title);

//因為正文中的商品名稱標籤沒有特殊class或id正則不好抓取,就抓

標籤中的內容了,一般來說title中內容就是商品名稱了(實際有些出入),$title[0]整個title標籤 $title[1]標籤中內容;

$title=iconv('GBK','UTF-8',$title);

//如果你的網站是utf8編碼,那麼需要進行一下轉碼(淘寶是gbk編碼)

C.獲取價格:

preg_match('/]*>([^/is', $text, $price);

//同理獲取id為J_StrPrice的標籤內容$price[2], $price[0]是整個標籤, $price[1]為strong標籤名;

$price=floatval($price);//放入資料庫估計還有轉一下變數類型

D.獲取屬性:

這之前獲取的內容都是在單標籤中相對只需一個正則就可搞定,然而如果要獲取如

這樣特定div中有未知n個<>標籤,獲取該特定div將會非常的困難,搜了下網上,最接近的也只是」/]*>([^<>]|(?R))*\1>/」這樣使用遞歸抓取標籤對,但是他不能抓特定標籤,所以想要輕鬆抓取class=」attributes」的div我是沒法辦到了。但是淘寶網頁有其特殊性,就是它的各個標籤結構基本是固定的…

標籤後面不是
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值