Excel表格的数据转换为代码中的结构数据

好吧,这个题目看着就很low,但是但是……真的好有用。

最近几个月爬取过几个网站,豆瓣、wiki、app annie等。一般我会先将html数据中的元素提取出来(xls文件),交给运营和产品经理,他们修改审核以后(修改过的xls)我需要将这些数据入库。

这里看似很简单,其实还挺tricky的,结构化的数据转换为xls很简单:

data->过滤"|"符号->保存为csv文件->excel导入(配置utf-8, 分隔符号为"|")->加入excel的数据过滤等然后就可以发给其他同事了。(用逗号也行,个人偏好吧)

但是,其他同事改完后,想再转换为结构化数据就很麻烦了,原因如下:

1,他们会在单元格中增加换行和tab

2,带中文的xls文件导出为csv会出现乱码,所以要转换为unicode文件,而unicode文件不是逗号分隔,而是tab分隔。

解决这两个问题也很直观,全文替换即可。

可是,mac版本的excel不能在替换框中输入这两个特殊符号,所以需要windows版本的!

我是按照如下办法解决的:

1,使用windows下的excel,替换换行 alt+0010或者 Ctrl+J 都能输入换行符号,但是你看不见(貌似excel版本还有要求,excel2013就不行,2003还可以)

2,替换tab,直接找到哪里有tab,拷贝下来,然后替换。这里需要注意的是不要区分全角/半角

3,xls从excel输出为utf-16 unicode的文件(如果输出是csv,在mac下编码会乱掉,不是GBK也不是UTF8/16,不知道是啥)。然后用sublime打开,然后Save with encoding->utf-8

这样,一个能用程序解析的文本文件就生成了。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值