Python爬取百度、必应、搜狗、谷歌的import re import requests from urllib import error from bs4 import BeautifulSo图片

其实原理都是一样的,只是每个网站的结构不一样,因此只是稍加修改了一下

当然如果能用一个程序去跑可能更好,当时急着用,用完了也没后续优化,就先分享出来了。

百度

 

import re

import requests

from urllib import error

from bs4 import BeautifulSoup

import os

num = 0

numPicture = 0

file = ''

List = []


def Find(url):
    global List

    #print('正在检测图片总数,请稍等.....')

    t = 0

    i = 1

    s = 0

    while t < 2000:

        Url = url + str(t)

        try:

            Result = requests.get(Url, timeout=7)

        except BaseException:

            t = t + 60

            continue

        else:

            result = Result.text

            pic_url = re.findall('"objURL":"(.*?)",', result, re.S)  # 先利用正则表达式找到图片url

            s += len(pic_url)

            if len(pic_url) == 0:

                break

            else:

                List.append(pic_url)

                t = t + 60

    return s


def recommend(url):
    Re = []

    try:

        html = requests.get(url)

    except error.HTTPError as e:

        return

    else:

        html.encoding = 'utf-8'

        bsObj = BeautifulSoup(html.text, 'html.parser')

        div = bsObj.find('div', id='topRS')

        if div is not None:

            listA = div.findAll('a')

            for i in listA:

                if i is not None:
                    R
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值