![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ETL
兰小莫
http://my.csdn.net/?ref=toolbar#
展开
-
kettle环境部署
1.最新下载链接:https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.1/pdi-ce-7.1.0.0-12.zip/download 2.没有安装Java jdk的要安装,要求jdk在1.8以上。此步可百度Java jdk下载及安装教程 3.下载完成解压,将data-integration文件夹拷到Java ...原创 2018-12-02 18:48:08 · 641 阅读 · 0 评论 -
数据清洗笔记
数据采集:互联网爬虫,外业采集,已有的第三方库数据、部分标准化结构数据,统计资料…… 数据清洗: RDBMS数据清洗 清洗的主要内容: 缺失:根据其它字段生成或表连接生成或根据数学模型计算 重复:去重,把冗余的数据清理 脏数据:文本里有不符合要求的字符需要剔除,如特殊符号(标点符号),空格,全角半角,乱码等 数据挖掘:从已有数据,用数学模型,计算出的结果,常见有:机器学习 深度学习 NLP等方法...原创 2019-04-19 22:49:31 · 404 阅读 · 0 评论