python数据处理到进入mysql的ods层

最新推荐文章于 2025-03-04 23:06:04 发布

Moonset1995

最新推荐文章于 2025-03-04 23:06:04 发布

阅读量722

点赞数 1

文章标签： python mysql

本文链接：https://blog.csdn.net/Moonset1995/article/details/105968243

版权

这是一个简单的python处理excel文件入库的项目。主要是为了处理整合一大堆excel到数据库里面，方便后续的数据处理和可视化。（代码能力有限~还希望大家多多指教，希望能得到大佬们的指点）
ps：下面的过程只做主要流程的代码说明，具体的数据处理细节就不多写啦，就是pandas的各种用法。
1. 数据链路（数据流转过程）
从excel经过python处理后进入数据库etl层（同时处理完的excel数据自动保存在另外的一个文件夹中做历史存储），然后通过数据库的不重复插入操作进入到ods层。

2. 数据读入和部分有趣的处理代码：

数据读入：

import pandas as pd 
import os

path_of_origin = r'//Desktop-6meit9b\共享文件夹'  #这里是共享文件夹的路径，如果要读取共享文件夹记得路径前面加上"//"
filenames = os.listdir(path_of_origin)

for filename in filenames:                         #循环输出一下路径文件夹下面的所有文件名
    print(filename)

for i in filenames:								  #循环读取一下文件名
    if i[:2] == '~$':							  #这里是为了去掉隐藏文件？不知道为啥会多了这个不用的文件，所以直接删
        continue
    excel_path = path_of_origin + '\\' + i        #将文件名赋值到新的路径中，后续直接用pandas读取文件
    try:      									  #这里用try来读取csv和xlsx文件。存在两种格式，所以得用两个不同方式。
        data = pd.read_csv(excel_path)     
    except:
        data = pd.read_excel(excel_path)
    df.append(data)                  			  #append一个个dataframe
df = pd.concat(df)							      #把一个大dataframe里面很多个小dataframe整合成一个