自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 浅谈数据规范

数据规范

2022-05-28 12:07:53 763

原创 kettle常用功能

KettleKettle是一款开源的ETL工具,纯Java编写,工作中经常用到一些转换,特此记录。1. 回刷历史数据如果历史数据需要大批量回刷,按照时间段跑数据,动辄几亿甚至千亿的数据操作会造成数据库断连,Select的时间可以达到十几分钟,按日跑需要不断地进行改参数,循环脚本可解决。job中对ETL参数做初始设置:select to_number(to_char(date('20210731'),'yyyymmdd')) as P_SYSDATE_NUM,

2021-10-29 16:57:35 1560

原创 Hadoop官方示例踩坑指南

搭建成功Hadoop环境后,执行官方MR示例,报错。问题:retry.RetryInvocationHandler: java.net.NoRouteToHostException: No Route to Host from ly/192.168.142.101 to ly2:8032 failed on socket timeout exception: java.net.NoRouteToHostException: 没有到主机的路由;**解决方式:关闭防火墙,只关了主机,其他两台系统统统都

2021-06-01 15:04:10 657

原创 Hadoop安装笔记(二)

**前置条件:VMWare安装成功三台Centos安装成功**继续:第一步:修改系统名字,及三个系统的ip和名字的映射。Vim /etc/hostname 修改主机名Vim /etc/hosts 修改名字和ip映射目标效果:三个系统能互相ping通,ping ly1第二步:SSH实现三台机子免密码登录。在主机master上ssh-keygen –t rsa –P ‘’ –f ~/.ssh/id_dsa 创造公钥私钥cd ~/.sshcat id_dsa.pub >>

2021-05-28 16:48:31 407

原创 Hadoop安装笔记(一)

1. 安装VMware基于Win10专业版系统,之前安装用的版本12,出现各种问题(查了一下说有可能是版本兼容的问题),所幸清了重来安装最新版。2. 安装CentOS参考https://www.cnblogs.com/lynn-li/p/6077944.html安装步骤VMware任何版本都可以,一路next就够了。CentOS下载的最简版本过程中出现得问题:一)VMware Workstation和Device / Credential Guard不兼容。禁用Device / Credent

2021-05-27 14:21:17 436

原创 数据开发

数据开发数据库一、主键和唯一性约束的区别?二、分页查询1.oracle分页2.Mysql分页2.Sqlserver分页三、水平线四、自洽事务五、数据建模六、视图、表、存储过程的区别七、包的定义,语句九、Sql语句怎么查看用到的索引十、Oracle分区十一、缓慢变化维的定义以及解决方式十二、数据中台的概念总结数据库侧重数据库基础、原理,SQl性能优化。一、主键和唯一性约束的区别?主键唯一,唯一性约束可以多个,相同点都是保证数据不重复。二、分页查询1.oracle分页依靠ROW_NUMBER(

2021-05-25 14:40:36 1251 6

原创 kettle实战笔记(一)

之前一直用python连数据库回刷历史数据,用了kettle之后就很香,拖拽几步就能实现,性能还高的一批,安利安利!kettle的数据分发和复制需求:回刷表中2021年全年数据连接组件出现支路的时候跳出这个提醒,我直接按了分发,结果查看数据库中日期只有奇数日,出现错行跳行的情况,多次重跑还是 存在数据缺失,排查了半天才知道是分发的问题。分发数据一分为二,分给两条支路复制数据复制两份重新连接,问题搞定!!kettle发送邮件问题:kettle定时发送邮件,数据以附件的形式保存,数值较

2021-05-25 13:35:34 1005

原创 阿里-大数据之路总结

阿里-大数据之路总结一、数据测试:1.典型测试方法:功能测试2.目标:验证目标数据是否符合预期3.方法:新增业务需求:要对目标数据和源数据进行对比,包括数据量、主键、字段空值、字段枚举值、复杂 逻辑(如 UDF、多路分支)等的测试。数据迁移、重构、修改:为保证数据质量需要对修改前后的数 据进行对比,包括数据量差异、宇段值差异对比等二、典型的数据仓库建模万法论ER 模型代表:Teradata 公司基于金融业务发布 的 FS-LDM (Financial Services Logica

2021-05-25 11:27:54 525

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除