这是一个简单的python处理excel文件入库的项目。主要是为了处理整合一大堆excel到数据库里面,方便后续的数据处理和可视化。(代码能力有限~还希望大家多多指教,希望能得到大佬们的指点)
ps:下面的过程只做主要流程的代码说明,具体的数据处理细节就不多写啦,就是pandas的各种用法。
1. 数据链路(数据流转过程)
从excel经过python处理后进入数据库etl层(同时处理完的excel数据自动保存在另外的一个文件夹中做历史存储),然后通过数据库的不重复插入操作进入到ods层。
2. 数据读入和部分有趣的处理代码:
数据读入:
import pandas as pd
import os
path_of_origin = r'//Desktop-6meit9b\共享文件夹' #这里是共享文件夹的路径,如果要读取共享文件夹记得路径前面加上"//"
filenames = os.listdir(path_of_origin)
for filename in filenames: #循环输出一下路径文件夹下面的所有文件名
print(filename)
for i in filenames: #循环读取一下文件名
if i[:2] == '~$': #这里是为了去掉隐藏文件?不知道为啥会多了这个不用的文件,所以直接删
continue
excel_path = path_of_origin + '\\' + i #将文件名赋值到新的路径中,后续直接用pandas读取文件
try: #这里用try来读取csv和xlsx文件。存在两种格式,所以得用两个不同方式。
data = pd.read_csv(excel_path)
except:
data = pd.read_excel(excel_path)
df.append(data) #append一个个dataframe
df = pd.concat(df) #把一个大dataframe里面很多个小dataframe整合成一个
数据处理(删掉emoji表情)