python 爬取某网站图片(娱乐向)

# -*- coding:utf-8 -*-
import requests
import re
import sys
import os
reload(sys)
sys.setdefaultencoding("utf-8")
type =sys.getfilesystemencoding()

header ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
dir_no =1
for j in range(1,13):#不同的网页
    url ='http://www.94soxx.com/xo/yazhousetu/5_'+str(j)+'.html'
    html =requests.get(url,headers=header)
    html.encoding='utf-8'
    # print html.content
    url_list = re.findall("(/xo/yazhousetu/0R.*?html)",html.content,re.S)
    for it in url_list:#同一网页中不同的链接
        pic_dir = r'pic/pic'+str(dir_no)+r'/'
        os.mkdir(pic_dir)
        c_url ='http://www.94soxx.com'+it
        c_html =requests.get(c_url,headers=header)
        c_html.encoding='utf-8'
        pic_url = re.findall('<img src="(http.*?)" />',c_html.content,re.S)
        pic_no =1
        for each in pic_url:#每个链接中的众多图片
            print 'now downloading:' +each
            pic =requests.get(each)
            fp =open(pic_dir+str(pic_no)+'.jpg','wb')
            fp.write(pic.content)
            fp.close()
            pic_no+=1
        dir_no+=1

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值