【第22期】观点:IT 行业加班,到底有没有价值?

淘宝数据抓取1.0-根据url抓取尺码和价格

原创 2016年05月30日 12:07:50

1.第一步:url列表(保存在Excel中,通过第三方Excel读取类库来读取url)。

2.网络请求URL。

a) Curl

i. Curl_init();//初始化

ii. Curl_setopt();//设置参数

iii. Curl_exec();//获取HTML

iv. Curl_close();//释放资源

b) 正则表达式

i. 匹配开始和结束:/(?<=开始内容)([.\S\s]*)(?=结束内容)/i

ii. 匹配数字 /\d*\.?\d{1,2}/

c) preg_match_all()函数匹配正则表达式

3. 计算平均值

a) array_key_exists($priceArray[$i][$m]['size'],$res)

4. 存库  



  $PHPExcel = new PHPExcel();
    $PHPReader = new PHPExcel_Reader_Excel2007();
    if(!$PHPReader->canRead($file_path)) {
        $PHPReader = new \PHPExcel_Reader_Excel5();
        if(!$PHPReader->canRead($file_path)) {
            return false;
        }
    }
    $PHPExcel = $PHPReader->load($file_path);
    $currentSheet = $PHPExcel->getSheet(0);// 读取第一個工作表
    $allRow = $currentSheet->getHighestRow();
    $excel_header = array(
            '1'=>'sale_time',
            '2'=>'brand',
            '3'=>'name',
            '4'=>'spu',
            '5'=>'price',
            '6'=>'currency',
            '7'=>'color',
            '8'=>'intro',
            );
    $allColumn=count($excel_header);
    $excel_data = array();
    $brandSelector=new BrandSelector();
    for($currentRow =1; $currentRow <= $allRow; $currentRow++) {
        if(!(trim($currentSheet->getCellByColumnAndRow(0,$currentRow)->getValue())
                    ||trim($currentSheet->getCellByColumnAndRow(1,$currentRow)->getValue()))){
            break;
        }
        for($currentColumn = 1; $currentColumn <= $allColumn; $currentColumn++) {
            $key = $excel_header[$currentColumn];
            $val = $currentSheet->getCellByColumnAndRow($currentColumn-1,$currentRow)->getValue();
            $excel_data[$currentRow][$key] = trim($val);
            if($key=="brand"){
                $bid=$brandSelector->getBrandIdByName($excel_data[$currentRow][$key]);
                $excel_data[$currentRow][$key]=$bid[0]['id'];
            }
        }
    }
    //循环结束
    return $excel_data;


版权声明:本文为博主原创文章,未经博主允许不得转载。 举报

相关文章推荐

淘宝/天猫商品价格抓取方法

最近有个项目,要求抓取天猫商城部分商品的价格信息, 一开始准备通过xpath定位到价格等信息的位置,然后直接提取信息 提取方法如下:chrome里面定位到源码的位置 右击 复制xpath即可 ...

url 模拟http basic认证及批量抓取数据

url 模拟http basic认证 curl -e 'http://www.fnet.bosai.go.jp/REGS/dataget/' -H 'Authorization: Basic ZGF4dWV3dWhlbjo2MDU4Mzc5MDU=' -F 'format=MSEED&amp;archive=tar%2Bgzip&amp;station=ALL&amp;component=BHX&amp;component=LHZ&amp;component=LHN&amp;component=LHE&amp;time=UT&amp;s_year

php实现抓取淘宝商品价格人气源码

寒假在家无聊想看一下淘宝相关开发怎么样,注册了个淘宝开发者,然后想调api的时候,发现还要很多很复杂的步骤,而且有的还收费,太尼玛坑爹了,于是自己尝试抓了一些淘宝的数据,做了自己的api。其中获取商品...

是使用淘宝API获取数据好,还是利用爬虫去抓取数据好呢

RT 目前抓了淘宝的200多万家 的店铺地址(URL)了,不知道算不算流氓爬虫。估计爬了他们 95%的店铺地址 ,仅供参考。   <

python获取淘宝ip库数据并写入文件

利用python抓取淘宝提供的ip库信息并保存. 淘宝ip库网站:http://ip.taobao.com 淘宝提供的API地址为:http://ip.taobao.com/service/getIpInfo.php?ip= 这个接口提供的QPS=10 以下为用python简单实现(剔除了私有ip地址段,在判断的时候后也只取了IP段的前三节,第四节统一设置为0,因为只要根据前三段就可以判断ip
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)