python html转excel_电商 Python html格式访客数据转为excel格式的数据 html格式的excel转换为excel...

# -*- coding: utf-8 -*-

# # 找出非excel格式的文件

# import pandas as pd

# import os

# from shutil import copyfile

# excel_dir = 'D:/工作/数据转换/访客数据/'

# os.chdir(excel_dir)

# for filename in os.listdir(excel_dir):

# root_dir = ""

# print(filename)

# try:

# frame = pd.read_excel(excel_dir+filename)

# root_dir = "D:/工作/数据转换/excel格式/"

# except Exception as e:

# print("异常:", e)

# root_dir = "D:/工作/数据转换/html格式/"

# copyfile(excel_dir+filename, root_dir+filename)

# # html的table转换为excel

# # 原文:https://www.jianshu.com/p/4f38fe021fb3

# import pandas

# import os

# from shutil import copyfile

# excel_dir = 'D:/工作/数据转换/html格式/'

# os.chdir(excel_dir)

# for filename in os.listdir(excel_dir):

# print(filename)

# try:

# with open(excel_dir+filename, 'rb') as f:

# df = pandas.read_html(f.read(),encoding='utf-8')

# bb = pandas.ExcelWriter("D:/工作/数据转换/转换数据/" + filename)

# df[0].to_excel(bb,index=False)

# bb.close()

# except Exception as e:

# print("异常:"+e)

# # copyfile(excel_dir+filename, "D:/工作/数据转换/出错数据/" + filename)

# # 单文件测试

# import pandas

# import os

# with open('访客-2020-09-18 23_45_16.xlsx', 'rb') as f:

# df = pandas.read_html(f.read(),encoding='utf-8')

# bb = pandas.ExcelWriter('访访客-2020-09-18 23_45_16-1.xlsx')

# df[0].to_excel(bb,index=False)

# bb.close()

# # 批量文件改名

# import os

# excel_dir = 'D:/工作/数据转换/1/'

# os.chdir(excel_dir)

# for filename in os.listdir(excel_dir):

# print(filename)

# oldFullName = excel_dir+filename

# newFullName = excel_dir+"1店-"+filename

# os.rename(oldFullName, newFullName)

# # excel转换为csv文件

# import pandas as pd

# import os

# import re

# excel_dir = 'D:/工作/数据转换/转换数据/'

# os.chdir(excel_dir)

# for filename in os.listdir(excel_dir):

# print(filename)

# # filename = "访客-2020-07-30 23_11_30.xlsx"

# df = pd.read_excel(filename,index_col=0)

# # 访问时间列 增加 日期

# m = re.search("(\d{4}-\d{1,2}-\d{1,2})", filename)

# strdate = m.group(1)

# df["访问时间"] =['%s %s' % (strdate, s) for s in df["访问时间"]]

# col_name = df.columns.tolist()

# if '搜索关键字' not in col_name:

# # 插入列

# index = col_name.index('入店来源') + 1

# col_name.insert(index, '搜索关键字')

# df = df.reindex(columns = col_name)

# # 修改值

# df.loc[df['入店来源'].str.find('手淘搜索') > -1 , '搜索关键字'] = df['入店来源'].str.replace('手淘搜索','')

# df.loc[df['入店来源'].str.find('手淘搜索') > -1 , '入店来源'] = '手淘搜索'

# file_name = os.path.splitext(filename)[0]

# df.to_csv('D:/工作/数据转换/CSV数据/'+file_name+'.csv',encoding='utf-8')

# # 数据合并

# import pandas as pd

# import os

# path = "./2店/"

# files = os.listdir(path)

# list_excel = []

# for filename in files:

# fullname = path + filename# excel的相对路径

# df = pd.read_csv(fullname)# 默认读取Excel的第一个表单

# list_excel.append(df)# 把Excel追加到list中

# writer = pd.ExcelWriter('合并后的数据.xlsx')

# pd.concat(list_excel).to_excel(writer,'sheet1',index=False)

# writer.save()

# print('合并完成')

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值