数据清洗(二)----- 数据转换

一、将电子表格转换为CSV类型

        这个比较简单,基本上用软件打开电子表格后选择另存为就可以定义另存文件的格式和编码了,这是比较简单快捷的。不过也有一些地方需要注意:

  • 在另存为CSV文件时,只有当前工作表中的内容会被保存,这是因为CSV文件只能描述一组数据集。如果你的电子表格里有多个工作表的话,需要分别单独存为CSV文件。

二、将电子表格转换为JSON

        电子表格转换为JSON数据稍微麻烦一点,但是也有很多方法解决了;

  • 比如excel中可以下载office中的应用工具 excel-to-json ,这个工具可以将你excel中的数据转换为JSON格式;
  • 还可以使用在线转换的方式,http://www.bejson.com/json/col2json/,只需将电子表格中的数据复制到在线转换的框中就可以得到JSON数据;
  • 另外,还有人开发了这种专门用于转换表格为JSON的小工具,使用起来也很方便,下载地址

三、将数据库中的数据转化为CSV或JSON

        使用MySQL的命令行输出CSV文件:

select concat(firstname, " ", lastname) as name, email_id
into outfile 'filename.csv'
fields terminated by ',' optionally enclosed by '"'
lines terminated by '\n'
from tbl_name; 

        但这种方式无法输出为JSON格式的数据。

       使用工具phpMyAdmin

        phpMyAdmin是基于WEB的MySQL数据库客户端程序,它可以将一整张表的数据或查询出来的结果数据直接输出为CSV或JSON格式的文件。具体就不演示了,安装好后稍微研究一下就会使用了。

四、使用python实现数据转换

4.1 使用python实现CSV到JSON的转换

         用程序的方式转换方式有多种多样,最简单的能想象到的就是使用内置的CSV和JSON库。

import json
import csv

# 读取CSV文件
with open('filename.csv') as file:
     file_csv = csv.DictReader(file)
     output = '['
     # 处理每一个目录
     for row in file_csv:
         output += json.dumps(row) + ','
     output = output.rstrip(',') + ']'

# 把文件写入磁盘
f = open('filename.json', 'w')
f.write(output)
f.close()

          也还可以使用python工具包的csvkit库来实现。

4.2 使用python实现JSON到CSV的转换

       读取json文件并转换为csv:

import json
import csv


with open('filename.json', 'r') as f:
     dicts = json.load(f)

out = open('filename.csv', 'w')
writer = csv.DictWriter(out, dicts[0].keys())
writer.writeheader()
writer.writerrows(dicts)
out.close()

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值