自己正在做一个关于数据预处理的东西,正在清洗数据,
1.解决
发现kettle4.x 中excel只能处理65536行数据,
如果想要修改的的话,就要设置一下
这样就能读取.xlsx格式,并且也能读取到一百多万行,暂时就没有那个问题了。
2.思路
如果一个文本文件中既有逗号分隔又有冒号,或者是什么别的分割,那么,我的做法是先把这些分隔换成统一的格式,
然后再变换到excel中进行实际操作。但是思路是简单的,可是执行起来就不一定会那么一帆风顺的了,我就是过程中
遇到了很多问题,像丢属性、参数什么的很常见,并且有的时候kettle还会没反应。。这些都是问题
好的思路还在思考中,希望各位谁有好的方法,思路能多多指导!