淘宝数据抓取1.0-根据url抓取尺码和价格

原创 2016年05月30日 12:07:50

1.第一步:url列表(保存在Excel中,通过第三方Excel读取类库来读取url)。

2.网络请求URL。

a) Curl

i. Curl_init();//初始化

ii. Curl_setopt();//设置参数

iii. Curl_exec();//获取HTML

iv. Curl_close();//释放资源

b) 正则表达式

i. 匹配开始和结束:/(?<=开始内容)([.\S\s]*)(?=结束内容)/i

ii. 匹配数字 /\d*\.?\d{1,2}/

c) preg_match_all()函数匹配正则表达式

3. 计算平均值

a) array_key_exists($priceArray[$i][$m]['size'],$res)

4. 存库  



  $PHPExcel = new PHPExcel();
    $PHPReader = new PHPExcel_Reader_Excel2007();
    if(!$PHPReader->canRead($file_path)) {
        $PHPReader = new \PHPExcel_Reader_Excel5();
        if(!$PHPReader->canRead($file_path)) {
            return false;
        }
    }
    $PHPExcel = $PHPReader->load($file_path);
    $currentSheet = $PHPExcel->getSheet(0);// 读取第一個工作表
    $allRow = $currentSheet->getHighestRow();
    $excel_header = array(
            '1'=>'sale_time',
            '2'=>'brand',
            '3'=>'name',
            '4'=>'spu',
            '5'=>'price',
            '6'=>'currency',
            '7'=>'color',
            '8'=>'intro',
            );
    $allColumn=count($excel_header);
    $excel_data = array();
    $brandSelector=new BrandSelector();
    for($currentRow =1; $currentRow <= $allRow; $currentRow++) {
        if(!(trim($currentSheet->getCellByColumnAndRow(0,$currentRow)->getValue())
                    ||trim($currentSheet->getCellByColumnAndRow(1,$currentRow)->getValue()))){
            break;
        }
        for($currentColumn = 1; $currentColumn <= $allColumn; $currentColumn++) {
            $key = $excel_header[$currentColumn];
            $val = $currentSheet->getCellByColumnAndRow($currentColumn-1,$currentRow)->getValue();
            $excel_data[$currentRow][$key] = trim($val);
            if($key=="brand"){
                $bid=$brandSelector->getBrandIdByName($excel_data[$currentRow][$key]);
                $excel_data[$currentRow][$key]=$bid[0]['id'];
            }
        }
    }
    //循环结束
    return $excel_data;


版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

最新抓取淘宝价格数据,图片标题的就更好抓了整合就好

抓取淘宝数据,图片没有做防盗链还有标题更好抓的,整合就行。抓了下价格
  • GT219
  • GT219
  • 2015-08-05 14:29
  • 1073

ecshop引入淘宝数据保留颜色尺码的方法

使用ECSHOP增强工具可以引入淘宝数据保留颜色尺码,增强工具的批量修改功能,可显著提高工作效率            数据处理功能:现在淘宝的“csv”格式可以说是网络上主流的商品存储格式。使用E...

php实现抓取淘宝商品价格人气源码

寒假在家无聊想看一下淘宝相关开发怎么样,注册了个淘宝开发者,然后想调api的时候,发现还要很多很复杂的步骤,而且有的还收费,太尼玛坑爹了,于是自己尝试抓了一些淘宝的数据,做了自己的api。其中获取商品...

淘宝评论数据抓取简记

刚才趴在床上搞清楚了淘宝评论数据的抓取方法,在此记录,以备后用。         淘宝商品详情页面下方有如下script:  window.App = (window.App...

python爬取ajax动态生成的数据 以抓取淘宝评论为例子

在学习python的时候,一定会遇到网站内容是通过ajax动态请求、异步刷新生成的json数据的情况,并且通过python使用之前爬取静态网页内容的方式是不可以实现的,所以这篇文章将要讲述如果在pyt...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)