- 本周任务:将项目中的xx文件导入到数据库中,去除空字段部分,并统计每个字段的分布情况
- 本日任务(0416):将项目中的xx文件导入到数据库中。
- 本日任务(0417):统计每个字段的分布情况
文件格式 .csv
预处理过程:
原始文件很杂,用python进行内容拼接,正则化表示,将日期格式由
2000\1\1 14:30
变成
2000-1-1 14:30:00
代码
import re
s=re.sub(r'\',r'-',s)
生成.sql文件
同样利用python写脚本,生成.sql文件,缺点是每个表项的格式定义要自己对着数据写(暂时默认为longtext)
生成的sql文件格式如下(内容省略):
DROP TABLE IF EXIST hello
;
CREATE TABLE hello
(
ID
LONGTEXT DEFAULT NULL,
)ENGINE=InnoDB DEFAULT CHA