調用淘寶的數據可以使用淘寶提供的api,如果只需調用淘寶商品圖片名稱等公開信息在自己網站上,使用php中的 file_get_contents 函數實現即可。
思路:
file_get_contents(url) 該函數根據 url 如 http://www.baidu.com 將該網頁內容(源碼)以字元串形式輸出(一個整字元串),然後配合preg_match,preg_replace等這些正則表達式操作就可以實現獲取該url特定div,img等信息了。當然前題是淘寶在單個商品頁面的結構是固定的,如500圖的img中id就是J_ImgBooth!
具體實現方法:(獲取500圖,名稱,價格,屬性及商品描述)
$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //將url地址上頁面內容保存進$text
A.獲取500圖:
preg_match('/]*id="J_ImgBooth"[^r]*rc="([^"]*)"[^>]*>/', $text, $img);
//運用正則抓取img標籤中id為J_ImgBooth的img,$img[0]為該500圖img標籤,$img[1]為500圖的圖片地址;
B. 獲取名稱:
preg_match('/
([^<>]*)/', $text, $title);//因為正文中的商品名稱標籤沒有特殊class或id正則不好抓取,就抓
標籤中的內容了,一般來說title中內容就是商品名稱了(實際有些出入),$title[0]整個title標籤 $title[1]標籤中內容;$title=iconv('GBK','UTF-8',$title);
//如果你的網站是utf8編碼,那麼需要進行一下轉碼(淘寶是gbk編碼)
C.獲取價格:
preg_match('/]*>([^/is', $text, $price);
//同理獲取id為J_StrPrice的標籤內容$price[2], $price[0]是整個標籤, $price[1]為strong標籤名;
$price=floatval($price);//放入資料庫估計還有轉一下變數類型
D.獲取屬性:
這之前獲取的內容都是在單標籤中相對只需一個正則就可搞定,然而如果要獲取如
…
…
…
…
這樣特定div中有未知n個<>標籤,獲取該特定div將會非常的困難,搜了下網上,最接近的也只是」/]*>([^<>]|(?R))*\1>/」這樣使用遞歸抓取標籤對,但是他不能抓特定標籤,所以想要輕鬆抓取class=」attributes」的div我是沒法辦到了。但是淘寶網頁有其特殊性,就是它的各個標籤結構基本是固定的…