PYTHON抓取当当网商品数据

__author__ = 'zy'
#<img class="BDE_Image" src="https://imgsa.baidu.com/forum/w%3D580/sign=517a6ed09b13b07ebdbd50003cd69113/a897d143ad4bd113d9785ec352afa40f4afb0588.jpg" size="85440" height="900" width="505">
import  re
import urllib
import urllib2


url="http://search.dangdang.com/?key=%B1%CA%BC%C7%B1%BE%B5%E7%C4%D4&act=input"
req=urllib2.Request(url)

req.add_header("Host","search.dangdang.com")
req.add_header("Referer","http://www.dangdang.com/?_utm_sem_id=8730834&_ddclickunion=544-ppztc-bt|ad_type=0|sys_id=1")
req.add_header("GET",url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.59 Safari/537.36")

html=urllib2.urlopen(req)
content=html.read()
def get_images(info):
    """.doc"""
    regex = r'img src="(.*?).jpg"'
    pat=re.compile(regex)
    images_code=re.findall(pat,content)
    i=1

    for image_url in images_code:
        print(image_url)

        urllib.urlretrieve(image_url,'%s.jpg' % i)

        i=i+1
get_images(content)
print get_images(content)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值