python下载网站文件到本地,python下载网站所有网页

大家好,本文将围绕python登录网站自动下载文件展开说明,python自动下载网页中的文件是一个很多人都想弄明白的事情,想搞清楚python下载网站文件到本地需要先了解以下几个事情。

这篇文章主要介绍了python自动下载文件到指定文件夹,具有一定借鉴价值,需要的朋友可以参考下用Python画简单笑脸代码。希望大家阅读完这篇文章后大有收获,下面让小编带着大家一起了解一下。

程序开发的背景:

双十一应客户要求,需要每隔一个小时就需要发一份订单统计数据给到联系微信群内,供客户统计各个业务节点的处理速度,为了不想在电脑前一直守着,本着能用技术去解决的问题,为啥要手动去处理的观念,由此产生想法开发一个自动化程序去解放双手!

一、需要安装的第三方类库:

selenium

wxauto

schedule

winreg

​
from selenium import webdriver
from  import By
import time
import os
from wxauto import *
import argparse
import winreg
import schedule
import logging

​
二、代码大体组成部分:

三、代码分析:
# 任务运行
def run_job():

    logging.basicConfig()
    schedule_logger = logging.getLogger('schedule_sendWxFile')
    # 日志级别为DEBUG
    schedule_logger.setLevel(level=logging.DEBUG)

    # 获取桌面路径
    desktop_url = desktop_path()
    desktop_url = desktop_url.replace("Desktop", "Download")

    # 接收参数
    parser = argparse.ArgumentParser(deion="download excel send to wx group!")
    parser.add_argument("--login_url", type=str, default="", help="报表文件下载的登录地址")
    parser.add_argument("--save_path", type=str, default=desktop_url+ r"\report", help="报表文件下载保存到本地电脑目录路径, 默认: 当前用户download目录下report文件夹")
    parser.add_argument("--username", type=str, default="", help="报表文件下载的登录账号")
    parser.add_argument("--password", type=str, default="", help="报表文件下载的登录密码")
    parser.add_argument("--download_url", type=str, default="", help="报表文件下载链接")
    parser.add_argument("--save_filename", type=str, default="", help="报表文件下载保存后文件名称, 默认:双十一单据分段耗时统计表_当前时间")
    parser.add_argument("--who", type=str, default="文件传输助手", help="需要发送报表的微信用户, 默认文件传输助手")
    parser.add_argument("--start_time", type=str, default="", help="指定开始时间报表下载, 格式:2023-11-10-11:00:00")
    parser.add_argument("--end_time", type=str, default="", help="指定结束时间报表下载, 格式:2023-11-10-11:00:00")
    parser.add_argument("--time_lag", type=int, default=1, help="程序定时运行时间间隔, 默认1小时")
    params = parser.parse_args()
    time_lag = params.time_lag

    if time_lag > 0:
        # schedule.every(time_lag)(download_and_send, params)
        schedule.every()(":09").do(download_and_send, params)

        while True:
            schedule.run_pending()
            time.sleep(1)
    else:
        download_and_send(params)

程序入口为run_job函数,使用schedule实现定时执行的能力,argparse模块作为运行程序时的传参,为了避免有些地方取值发生改变,做的更加灵活一点

# 判断文件是否存在            
def exist_file(path_to_file, attempts=0, timeout=120, sleep_int=5):
    if attempts < timeout:
        if .exists(path_to_file): 
            return True
        else:
            # perform an action
            time.sleep(sleep_int)
            exist_file(path_to_file, attempts + 1)
    else:
        return False

因报表文件由另外一个计划任务程序定时生成和可能遇到网络问题,所以需要添加一个判断是否下载文件已成功存在到本地


# 获取本地电脑桌面路径        
def desktop_path():
    key = winreg.OpenKey(winreg.HKEY_CURRENT_USER, r'Software\Microsoft\Windows\CurrentVersion\Explorer\Shell Folders')
    path = winreg.QueryValueEx(key, "Desktop")[0]
    return path

获取本地电脑桌面路径,是为保存下载的报表文件到本地电脑,每个人的电脑路径用户不同而不同

# 下载并发送到微信
def download_and_send(params):
    try:
        download_pub_url = ""
        # 打开浏览器并访问
        url = params.login_url #登录地址
        username = params.username
        password = params.password
        savePath = params.save_path #下载保存目录
        save_filename = "双十一单据分段耗时统计表_"+ time.strftime('%Y-%m-%d-%H00', time.localtime())+"" #下载保存文件名
        download_url = params.download_url #下载链接
        start_time = params.start_time
        end_time = params.end_time
        who =  #指定发送对象

        if end_time:
            end_time = params.end_time.replace(":", "").replace("-", "").replace(" ", "")
        else:
            end_time = time.strftime('%Y%m%d%H0000', time.localtime())

        # 有指定时间时
        if start_time :
            base_name = start_time.replace(":", "").replace("-", "").replace(" ", "")
            base_name = "section_time_count_" + base_name + '--' + end_time +".xlsx"
            download_url = download_pub_url + base_name

        if params.save_filename:
            save_filename = params.save_filename
            


        # 浏览器初始化
        options = Options()
        prefs = {"download.default_directory": savePath, "profile.default_content_settings.popus": 0}
        options.add_experimental_option("prefs", prefs)
        options.add_experimental_option("detach", True)
        options.add_argument("headless")
        driver = (options=options)
        driver.maximize_window()
        (url)

        # # 输入点击登录
        driver.find_element(, value="user_name").send_keys(username)
        driver.find_element(, value="password").send_keys(password)
        driver.find_element(, value="login_button").click()

        time.sleep(3)
        
        try:
            login_message = driver.find_element(, value="login_message").text
            print(login_message)
            exit()
        except Exception as e:
            pass

        #下载报表文件
        excel_name_arr = download_url.split("/")
        excel_name     = excel_name_arr[len(excel_name_arr)-1]
        save_excel_name = savePath+'\\'+excel_name

        # 判断文件是否存在,存在时先删除
        if .exists(save_excel_name):
            os.unlink(save_excel_name)

        # 新开标签页访问下载
        driver.execute_('("'+download_url+'")')
        fileName = savePath+"\\"+save_filename

        # 判断是否已下载保存
        is_exist = exist_file(save_excel_name)
        if is_exist is False:
            print("文件"+excel_name+"下载失败,请检查!")
        else:
            print("文件"+excel_name+"下载成功, 保存路径为:"+savePath+"!")
            # 判断文件是否存在,存在时先删除
            if .exists(fileName):
                os.unlink(fileName)
            
            # 文件重命名
            os.rename(save_excel_name, fileName)

            #发送文件到微信
            try: 
                wx = WeChat(who) # 指定发送对象
                # send_msg = '这是python发送的测试信息'  # 发送消息内容
                # 向某人发送消息(以`文件传输助手`为例)
                #wx.SendMsg(send_msg)  # 向`文件传输助手`发送消息:你好~
                wx.ChatWith(who)  # 打开`文件传输助手`聊天窗口
                wx.SendFiles(fileName)
                print("文件: "+fileName+"发送成功!")
                 ()
            except Exception as e:
                print("文件: "+fileName+"发送失败!")
    except Exception as e:
        print(e)
        print("执行出错!")

下载文件并发送微信群的具体代码,使用selenium先模拟登录,登录成功后访问已经存在服务器的报表文件下载到本地进行重命名,最后使用wxauto去进行发送文件到微信群,唯一的不足是wxauto需要把微信窗口打开在桌面,而且会出现无法获取句柄的情况,这时候需要把微信重新退出登录后再操作

三、所有实现代码:
from selenium import webdriver
from  import By
import time
import os
from wxauto import *
import argparse
import winreg
import schedule
import logging

# 任务运行
def run_job():

    logging.basicConfig()
    schedule_logger = logging.getLogger('schedule_sendWxFile')
    # 日志级别为DEBUG
    schedule_logger.setLevel(level=logging.DEBUG)

    # 获取桌面路径
    desktop_url = desktop_path()
    desktop_url = desktop_url.replace("Desktop", "Download")

    # 接收参数
    parser = argparse.ArgumentParser(deion="download excel send to wx group!")
    parser.add_argument("--login_url", type=str, default="", help="报表文件下载的登录地址")
    parser.add_argument("--save_path", type=str, default=desktop_url+ r"\report", help="报表文件下载保存到本地电脑目录路径, 默认: 当前用户download目录下report文件夹")
    parser.add_argument("--username", type=str, default="", help="报表文件下载的登录账号")
    parser.add_argument("--password", type=str, default="", help="报表文件下载的登录密码")
    parser.add_argument("--download_url", type=str, default="", help="报表文件下载链接")
    parser.add_argument("--save_filename", type=str, default="", help="报表文件下载保存后文件名称, 默认:双十一单据分段耗时统计表_当前时间")
    parser.add_argument("--who", type=str, default="文件传输助手", help="需要发送报表的微信用户, 默认文件传输助手")
    parser.add_argument("--start_time", type=str, default="", help="指定开始时间报表下载, 格式:2023-11-10-11:00:00")
    parser.add_argument("--end_time", type=str, default="", help="指定结束时间报表下载, 格式:2023-11-10-11:00:00")
    parser.add_argument("--time_lag", type=int, default=1, help="程序定时运行时间间隔, 默认1小时")
    params = parser.parse_args()
    time_lag = params.time_lag

    if time_lag > 0:
        # schedule.every(time_lag)(download_and_send, params)
        schedule.every()(":09").do(download_and_send, params)

        while True:
            schedule.run_pending()
            time.sleep(1)
    else:
        download_and_send(params)

# 判断文件是否存在            
def exist_file(path_to_file, attempts=0, timeout=120, sleep_int=5):
    if attempts < timeout:
        if .exists(path_to_file): 
            return True
        else:
            # perform an action
            time.sleep(sleep_int)
            exist_file(path_to_file, attempts + 1)
    else:
        return False

# 获取本地电脑桌面路径        
def desktop_path():
    key = winreg.OpenKey(winreg.HKEY_CURRENT_USER, r'Software\Microsoft\Windows\CurrentVersion\Explorer\Shell Folders')
    path = winreg.QueryValueEx(key, "Desktop")[0]
    return path

# 下载并发送到微信
def download_and_send(params):
    try:
        download_pub_url = ""
        # 打开浏览器并访问
        url = params.login_url #登录地址
        username = params.username
        password = params.password
        savePath = params.save_path #下载保存目录
        save_filename = "双十一单据分段耗时统计表_"+ time.strftime('%Y-%m-%d-%H00', time.localtime())+"" #下载保存文件名
        download_url = params.download_url #下载链接
        start_time = params.start_time
        end_time = params.end_time
        who =  #指定发送对象

        if end_time:
            end_time = params.end_time.replace(":", "").replace("-", "").replace(" ", "")
        else:
            end_time = time.strftime('%Y%m%d%H0000', time.localtime())

        # 有指定时间时
        if start_time :
            base_name = start_time.replace(":", "").replace("-", "").replace(" ", "")
            base_name = "section_time_count_" + base_name + '--' + end_time +".xlsx"
            download_url = download_pub_url + base_name

        if params.save_filename:
            save_filename = params.save_filename
            


        # 浏览器初始化
        options = Options()
        prefs = {"download.default_directory": savePath, "profile.default_content_settings.popus": 0}
        options.add_experimental_option("prefs", prefs)
        options.add_experimental_option("detach", True)
        options.add_argument("headless")
        driver = (options=options)
        driver.maximize_window()
        (url)

        # # 输入点击登录
        driver.find_element(, value="user_name").send_keys(username)
        driver.find_element(, value="password").send_keys(password)
        driver.find_element(, value="login_button").click()

        time.sleep(3)
        
        try:
            login_message = driver.find_element(, value="login_message").text
            print(login_message)
            exit()
        except Exception as e:
            pass

        #下载报表文件
        excel_name_arr = download_url.split("/")
        excel_name     = excel_name_arr[len(excel_name_arr)-1]
        save_excel_name = savePath+'\\'+excel_name

        # 判断文件是否存在,存在时先删除
        if .exists(save_excel_name):
            os.unlink(save_excel_name)

        # 新开标签页访问下载
        driver.execute_('("'+download_url+'")')
        fileName = savePath+"\\"+save_filename

        # 判断是否已下载保存
        is_exist = exist_file(save_excel_name)
        if is_exist is False:
            print("文件"+excel_name+"下载失败,请检查!")
        else:
            print("文件"+excel_name+"下载成功, 保存路径为:"+savePath+"!")
            # 判断文件是否存在,存在时先删除
            if .exists(fileName):
                os.unlink(fileName)
            
            # 文件重命名
            os.rename(save_excel_name, fileName)

            #发送文件到微信
            try: 
                wx = WeChat(who) # 指定发送对象
                # send_msg = '这是python发送的测试信息'  # 发送消息内容
                # 向某人发送消息(以`文件传输助手`为例)
                #wx.SendMsg(send_msg)  # 向`文件传输助手`发送消息:你好~
                wx.ChatWith(who)  # 打开`文件传输助手`聊天窗口
                wx.SendFiles(fileName)
                print("文件: "+fileName+"发送成功!")
                 ()
            except Exception as e:
                print("文件: "+fileName+"发送失败!")
    except Exception as e:
        print(e)
        print("执行出错!")




if __name__=='__main__':
    run_job()
四、总结:

整个脚本代码比较基础,正常来说应该用面向对象的方式来实现会更好,可以一定的减少代码量,再者是wxauto库缺陷,想请教各位大佬是否有更好的替代方案,研究python时间不长,水平不到位勿喷,希望各位大佬可以提提建议哈!

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值