Excel表格的数据转换为代码中的结构数据

好吧,这个题目看着就很low,但是但是……真的好有用。

最近几个月爬取过几个网站,豆瓣、wiki、app annie等。一般我会先将html数据中的元素提取出来(xls文件),交给运营和产品经理,他们修改审核以后(修改过的xls)我需要将这些数据入库。

这里看似很简单,其实还挺tricky的,结构化的数据转换为xls很简单:

data->过滤"|"符号->保存为csv文件->excel导入(配置utf-8, 分隔符号为"|")->加入excel的数据过滤等然后就可以发给其他同事了。(用逗号也行,个人偏好吧)

但是,其他同事改完后,想再转换为结构化数据就很麻烦了,原因如下:

1,他们会在单元格中增加换行和tab

2,带中文的xls文件导出为csv会出现乱码,所以要转换为unicode文件,而unicode文件不是逗号分隔,而是tab分隔。

解决这两个问题也很直观,全文替换即可。

可是,mac版本的excel不能在替换框中输入这两个特殊符号,所以需要windows版本的!

我是按照如下办法解决的:

1,使用windows下的excel,替换换行 alt+0010或者 Ctrl+J 都能输入换行符号,但是你看不见(貌似excel版本还有要求,excel2013就不行,2003还可以)

2,替换tab,直接找到哪里有tab,拷贝下来,然后替换。这里需要注意的是不要区分全角/半角

3,xls从excel输出为utf-16 unicode的文件(如果输出是csv,在mac下编码会乱掉,不是GBK也不是UTF8/16,不知道是啥)。然后用sublime打开,然后Save with encoding->utf-8

这样,一个能用程序解析的文本文件就生成了。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在 Python ,可以使用 xlrd 库来读取 Excel 表格数据,然后使用 pyodbc 库来连接数据库并更新数据库内容。 以下是一个示例代码,假设你的 Excel 表格有一张名为 "Sheet1" 的工作表,表格有两列:"ID" 和 "Name"。 首先,需要安装 xlrd 和 pyodbc 库: ``` pip install xlrd pip install pyodbc ``` 然后,可以使用以下代码来读取 Excel 表格并更新数据库: ```python import xlrd import pyodbc # 打开 Excel 表格 workbook = xlrd.open_workbook("data.xlsx") sheet = workbook.sheet_by_name("Sheet1") # 连接数据库 cnxn = pyodbc.connect("DRIVER={SQL Server};SERVER=localhost;DATABASE=mydatabase;UID=myusername;PWD=mypassword") cursor = cnxn.cursor() # 遍历表格的每一行 for i in range(1, sheet.nrows): row = sheet.row_values(i) id = row[0] name = row[1] # 执行 SQL 更新语句 cursor.execute("UPDATE mytable SET name=? WHERE id=?", name, id) # 提交更改 cnxn.commit() # 关闭连接 cnxn.close() ``` 注意:需要根据自己的数据库设置来修改连接字符串的内容,例如数据库服务器地址、数据库名称、用户名和密码。 ### 回答2: 使用Python可以使用一些库来实现根据Excel表格数据更新数据库的内容,其常用的库有openpyxl和pandas。 如果使用openpyxl库,可以按照以下步骤进行实现: 首先,需要导入openpyxl库和数据库相关的库,比如pymysql或者sqlite等。 其次,需要打开Excel表格,并读取数据。可以使用openpyxl库的load_workbook函数来加载Excel文件,然后使用sheet属性获取表格的具体工作表。 然后,根据需要更新的数据进行逐行遍历,并将数据提取出来。可以使用iter_rows函数来获取每一行的数据,然后使用value属性来获取具体单元格的值。 接下来,需要连接数据库,并进行更新操作。可以使用pymysql库的connect函数来连接数据库,并使用cursor对象进行数据的插入、更新等操作。 最后,关闭数据库连接和Excel文档。 如果使用pandas库,可以按照以下步骤进行实现: 首先,需要导入pandas库和数据库相关的库,比如pymysql或者sqlite等。 其次,使用pandas库的read_excel函数读取Excel表格数据,并将其转换为pandas的DataFrame数据结构。 然后,根据需要更新的数据进行数据处理和筛选。可以使用pandas库的查询、筛选、合并等函数对数据进行处理。 接下来,连接数据库,并进行更新操作。可以使用pymysql库的connect函数来连接数据库,并使用cursor对象进行数据的插入、更新等操作。 最后,关闭数据库连接。 以上就是使用Python代码实现根据Excel表格数据更新数据库内容的基本步骤,具体实现可根据具体需求和数据库类型进行调整。 ### 回答3: 要使用Python代码实现根据Excel表格数据更新数据库内容,首先需要安装和导入所需的库,例如pandas和SQLAlchemy。 然后可以按照以下步骤进行: 1. 读取Excel表格数据:使用pandas库的read_excel函数,将Excel表格数据读取到一个pandas的DataFrame对象。 2. 连接到数据库:使用SQLAlchemy库,根据需要的数据库类型和连接方式,建立与数据库的连接。例如,使用MySQL数据库可以使用以下代码: ``` from sqlalchemy import create_engine # 创建连接 engine = create_engine('mysql+pymysql://用户名:密码@主机名:端口号/数据库名') ``` 3. 将Excel表格数据转换数据库更新语句:根据数据表的结构和要更新的方式,使用DataFrame对象数据生成相应的数据库更新语句,可以使用pandas库的to_sql函数将DataFrame对象的数据写入数据库。例如,如果要更新名为"students"的数据表,可以使用以下代码: ``` # 导入数据数据库 dataframe.to_sql('students', engine, if_exists='replace', index=False) ``` 其,'students'是数据的表名,engine是数据库连接对象。 4. 执行数据库更新:通过执行生成数据库更新语句,将Excel表格数据更新到数据。 完整的Python代码示例如下: ```python import pandas as pd from sqlalchemy import create_engine # 读取Excel表格数据 dataframe = pd.read_excel('路径/文件名.xlsx') # 连接到数据库 engine = create_engine('mysql+pymysql://用户名:密码@主机名:端口号/数据库名') # 导入数据数据库 dataframe.to_sql('students', engine, if_exists='replace', index=False) ``` 以上是根据Excel表格数据更新数据库内容的简单实现方法,根据实际需求和具体表格数据结构,可以进行相应的调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值