python读取文件夹下所有csv文件_python遍历文件夹下的csv文件,读取文件内容存到数据库...

一、使用python导入的原因

1、csv文件为从文件数据库导出的数据文件,一个一个的导入到数据库效率就比较低下;

2、日期形式的字段会存在特殊的字符或者字段中包含了单引号就会报错。

二、操作

1、循环读取选定文件夹下的文件

'''读取文件夹下的csv文件'''

defreadAllFiles(filePath):

fileList=os.listdir(filePath)for file infileList:

path=os.path.join(filePath, file)ifos.path.isfile(path):

file= open(path, 'r', encoding='utf-8')print(path)#流程记录信息

if path.find("workflow") != -1:

analysisWorkflowCsv(file)pass

#意见信息

elif path.find("opinion") != -1:

analysisOpinionCsv(file)pass

#发文数据

elif path.find("wd_24") != -1:

analysisWd24Csv(file)pass

#收文数据

elif path.find("wd_25") != -1:

analysisWd25Csv(file)pass

else:

readAllFiles(path)

2、解析文件内容,首行为标题栏需要跳过。入库操作每满1000条commit一次主要是python频繁提交执行次数达到1000+就会报错。1000条commit一次可以避免错误并缓解内存压力。

'''解析文件'''

defanalysisWorkflowCsv(file):

csvFile=csv.reader(file)#读取一行,下面的reader中已经没有该行了

head_row =next(csvFile)#print(head_row)

__conn =getConnect_old()

counter=0for row incsvFile:

workflow={}

workflow['UUID'] =row[0]

workflow['subject'] = row[1]

workflow['signdate'] = row[2]

workflow['U_UnitName'] = row[3]

workflow['U_UnitUser'] = row[4]

workflow['U_UnitUserTitle'] = row[5]

workflow['U_UnitEndTime'] = row[6]

workflow['U_UnitAction'] = row[7]

workflow['U_UnitToTitle'] = row[8]if insertWorkflows(__conn, workflow):

counter+= 1

if counter % 1000 ==0:__conn.commitData()print("已经插入工作流数据: %d 条。"%counter)__conn.commitData()__conn.closeConn()

3、数据入库

'''插入工作流程数据'''

def insertWorkflows(__conn, workflow):__sql = '''INSERT INTO workflows (

UUID, U_UnitName, U_UnitUser, U_UnitUserTitle, U_UnitEndTime, U_UnitAction, U_UnitToTitle, subject, signdate

) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s)'''

__params =(

workflow['UUID'], workflow['U_UnitName'], workflow['U_UnitUser'], workflow['U_UnitUserTitle'],

workflow['U_UnitEndTime'], workflow['U_UnitAction'], workflow['U_UnitToTitle'], workflow['subject'],

workflow['signdate']

)#print(__sql % __params)

return __conn.mssql_exe_sql(__sql, __params)

4、python操作sqlserver代码

importpymssql

os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'

'''数据库连接'''

classConnectionDatabase(object):#连接mysql数据库

def __init__(self, ip, user_name, passwd, db, char='utf8'):

self.ip=ip#self.port = port

self.username =user_name

self.passwd=passwd

self.mysqldb=db

self.char=char

self.MsSQL_db=pymssql.connect(

host=self.ip,

user=self.username,

password=self.passwd,

database=self.mysqldb,

charset=self.char)#查询数据(sqlserver)

defmssql_findList(self, sql):

cursor=self.MsSQL_db.cursor()

MsSQL_sql=sql

results=Noneif notcursor:raise (NameError,"数据库连接失败")try:#执行SQL语句

cursor.execute(MsSQL_sql)#获取所有记录列表

results =cursor.fetchall()exceptException as e:print(e)

self.MsSQL_db.close()ifresults:returnresultselse:returnNone#数据增删改查(sqlserver)

defmssql_exe_sql(self, sql, params):

cursor=self.MsSQL_db.cursor()

MsSQL_sql=sql

result=0if notcursor:raise (NameError,"数据库连接失败")try:#执行SQL语句

cursor.execute(MsSQL_sql, params)

result=cursor.rowcountexceptException as e:print(e)

self.MsSQL_db.rollback()

self.MsSQL_db.close()return result>0'''提交数据集'''

defcommitData(self):try:

self.MsSQL_db.commit()exceptException as e:print(e)'''关闭数据库连接'''

defcloseConn(self):ifself.MsSQL_db:

self.MsSQL_db.close()

5、执行代码

if __name__ == "__main__":#文件所在的文件夹父路径

#testFilePath = "G:\数据解析\csv\workflowcsv"

testFilePath = "G:\数据解析\csv\wd25csv"readAllFiles(testFilePath)

遇到的问题及解决方式:

(1)以上代码执行时如果有时间类型的字段需要对字符串进行转换;

re.sub('[^0-9 | \- | : ]', '', timestr)

利用正则表达式将时间字符串中的特殊字符去掉,再转换为时间字符串,避免代码执行时类型转换错误。

(2)数据库插入数据的sql语句最好使用的是带参数的执行方式,不要使用sql占位符拼接的方式,这样可能出现单引号“'”导致sql执行失败。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值