python爬虫简单实现

import requests
from bs4 import BeautifulSoup
import urllib
import os.path


def file_extension(path):
    return os.path.splitext(path)[1]


res = requests.get('http://so.sccnn.com/search/%D1%F9%BB%FA/1.html')
soup = BeautifulSoup(res.text, "html.parser")
ImgS = soup.find_all('img')
imgS_url = []
for img in ImgS:
    imgS_url.append(img['src'])

m = 0
for img_url in imgS_url:
    print(img_url)
    urllib.request.urlretrieve(img_url, 'e:/download/ss/' + str(m) + file_extension(img_url.split('?')[0]))
    m += 1

爬取图片 python自创库

import requests
from bs4 import BeautifulSoup
import urllib
import os.path


class Crawler4j:
    __count = 0
    __valueList = []

    def __file_extension(self, path):
        return os.path.splitext(path)[1]

    def __init__(self, url, elements, src, location):
        self.__url = url
        self.__elements = elements
        self.__src = src
        self.__location = location

    def crawl(self):
        res = requests.get(self.__url)
        soup = BeautifulSoup(res.text, "html.parser")
        values = soup.find_all(self.__elements)

        for temp in values:
            self.__valueList.append(temp[self.__src])
        for value in self.__valueList:
            urllib.request.urlretrieve(value, self.__location + str(self.__count) + self.__file_extension(
                value.split('?')[0]))
            self.__count += 1


if __name__ == '__main__':
    app = Crawler4j('http://so.sccnn.com/search/%D1%F9%BB%FA/1.html', 'img', 'src', 'e:/download/bb/')
    app.crawl()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值