Python网络爬虫(4)煎蛋网妹子图片抓取

from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError
from bs4 import BeautifulSoup
import urllib.request
import re
import os

def get_html(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        print(e)
        return None
    except URLError as e:
        print(e)
        return None
    try:
        bsObj = BeautifulSoup(html,"html.parser")
        return bsObj
    except AttributeError as e:
        print(e)
        return None
    
def get_img(bsObj):
    img_addrs = bsObj.findAll("img",{"src":re.compile("\/\/ww[1-9]\.sinaimg\.cn\/mw600\/[0-9a-zA-z]{32}\.jpg")})
    return img_addrs

def save_img(path,img_addrs,i):
    for each in img_addrs:
        filename = path + str(i) + '.jpg'
        try:
            urllib.request.urlretrieve('http:'+each["src"],filename)
            print("%d.jpg download success!"%i)
        except HTTPError as e:
            print(e)
        i = i + 1
    return i

if __name__ == "__main__":
    while 1 :
        path = input("Please input the path:")
        try:
            os.makedirs(path)
            break
        except FileExistsError as e:
            print(e)
            continue
    page = int(input("Please input the pages:"))
    i = 0
    for n in range(1,page + 1):
        url = "http://jandan.net/ooxx/page-" + str(2308 - n) + "#comments"
        print(url)
        html = get_html(url)
        img_addrs = get_img(html)
        i = save_img(path,img_addrs,i)





没有对IP和post和get处理 简单的爬虫

我在做的时候没有审清页面关系 导致抓不到正确图片 一上午啊!!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值