好吧,这个题目看着就很low,但是但是……真的好有用。
最近几个月爬取过几个网站,豆瓣、wiki、app annie等。一般我会先将html数据中的元素提取出来(xls文件),交给运营和产品经理,他们修改审核以后(修改过的xls)我需要将这些数据入库。
这里看似很简单,其实还挺tricky的,结构化的数据转换为xls很简单:
data->过滤"|"符号->保存为csv文件->excel导入(配置utf-8, 分隔符号为"|")->加入excel的数据过滤等然后就可以发给其他同事了。(用逗号也行,个人偏好吧)
但是,其他同事改完后,想再转换为结构化数据就很麻烦了,原因如下:
1,他们会在单元格中增加换行和tab
2,带中文的xls文件导出为csv会出现乱码,所以要转换为unicode文件,而unicode文件不是逗号分隔,而是tab分隔。
解决这两个问题也很直观,全文替换即可。
可是,mac版本的excel不能在替换框中输入这两个特殊符号,所以需要windows版本的!
我是按照如下办法解决的:
1,使用windows下的excel,替换换行 alt+0010或者 Ctrl+J 都能输入换行符号,但是你看不见(貌似excel版本还有要求,excel2013就不行,2003还可以)
2,替换tab,直接找到哪里有tab,拷贝下来,然后替换。这里需要注意的是不要区分全角/半角
3,xls从excel输出为utf-16 unicode的文件(如果输出是csv,在mac下编码会乱掉,不是GBK也不是UTF8/16,不知道是啥)。然后用sublime打开,然后Save with encoding->utf-8
这样,一个能用程序解析的文本文件就生成了。