淘宝数据抓取1.0-根据url抓取尺码和价格

原创 2016年05月30日 12:07:50

1.第一步:url列表(保存在Excel中,通过第三方Excel读取类库来读取url)。

2.网络请求URL。

a) Curl

i. Curl_init();//初始化

ii. Curl_setopt();//设置参数

iii. Curl_exec();//获取HTML

iv. Curl_close();//释放资源

b) 正则表达式

i. 匹配开始和结束:/(?<=开始内容)([.\S\s]*)(?=结束内容)/i

ii. 匹配数字 /\d*\.?\d{1,2}/

c) preg_match_all()函数匹配正则表达式

3. 计算平均值

a) array_key_exists($priceArray[$i][$m]['size'],$res)

4. 存库  



  $PHPExcel = new PHPExcel();
    $PHPReader = new PHPExcel_Reader_Excel2007();
    if(!$PHPReader->canRead($file_path)) {
        $PHPReader = new \PHPExcel_Reader_Excel5();
        if(!$PHPReader->canRead($file_path)) {
            return false;
        }
    }
    $PHPExcel = $PHPReader->load($file_path);
    $currentSheet = $PHPExcel->getSheet(0);// 读取第一個工作表
    $allRow = $currentSheet->getHighestRow();
    $excel_header = array(
            '1'=>'sale_time',
            '2'=>'brand',
            '3'=>'name',
            '4'=>'spu',
            '5'=>'price',
            '6'=>'currency',
            '7'=>'color',
            '8'=>'intro',
            );
    $allColumn=count($excel_header);
    $excel_data = array();
    $brandSelector=new BrandSelector();
    for($currentRow =1; $currentRow <= $allRow; $currentRow++) {
        if(!(trim($currentSheet->getCellByColumnAndRow(0,$currentRow)->getValue())
                    ||trim($currentSheet->getCellByColumnAndRow(1,$currentRow)->getValue()))){
            break;
        }
        for($currentColumn = 1; $currentColumn <= $allColumn; $currentColumn++) {
            $key = $excel_header[$currentColumn];
            $val = $currentSheet->getCellByColumnAndRow($currentColumn-1,$currentRow)->getValue();
            $excel_data[$currentRow][$key] = trim($val);
            if($key=="brand"){
                $bid=$brandSelector->getBrandIdByName($excel_data[$currentRow][$key]);
                $excel_data[$currentRow][$key]=$bid[0]['id'];
            }
        }
    }
    //循环结束
    return $excel_data;


版权声明:本文为博主原创文章,未经博主允许不得转载。

最新抓取淘宝价格数据,图片标题的就更好抓了整合就好

抓取淘宝数据,图片没有做防盗链还有标题更好抓的,整合就行。抓了下价格...
  • GT219
  • GT219
  • 2015年08月05日 14:29
  • 1227

ecshop引入淘宝数据保留颜色尺码的方法

使用ECSHOP增强工具可以引入淘宝数据保留颜色尺码,增强工具的批量修改功能,可显著提高工作效率            数据处理功能:现在淘宝的“csv”格式可以说是网络上主流的商品存储格式。使用E...
  • shopfw
  • shopfw
  • 2012年02月18日 21:24
  • 470

php实现抓取淘宝商品价格人气源码

寒假在家无聊想看一下淘宝相关开发怎么样,注册了个淘宝开发者,然后想调api的时候,发现还要很多很复杂的步骤,而且有的还收费,太尼玛坑爹了,于是自己尝试抓了一些淘宝的数据,做了自己的api。其中获取商品...
  • leiflyy
  • leiflyy
  • 2016年01月30日 16:37
  • 4941

python爬取ajax动态生成的数据 以抓取淘宝评论为例子

在学习python的时候,一定会遇到网站内容是通过ajax动态请求、异步刷新生成的json数据的情况,并且通过python使用之前爬取静态网页内容的方式是不可以实现的,所以这篇文章将要讲述如果在pyt...

淘宝商品价格监控自动保存截图

  • 2017年09月27日 19:41
  • 15MB
  • 下载

《程序员的第一年》---------- 【抓取网页数据】定时查寻淘宝搜索结果并用excel记录下来(HttpWebRequest与正则等的使用)

《程序员的第一年》---------- 【抓取网页数据】定时查寻淘宝搜索结果并用excel记录下来(HttpWebRequest与正则等的使用) 最近在看一些关于HttpWebRequest与正则来...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:淘宝数据抓取1.0-根据url抓取尺码和价格
举报原因:
原因补充:

(最多只允许输入30个字)