自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

康师傅没有眼泪

每天进步一点点!

  • 博客(7)
  • 资源 (5)
  • 收藏
  • 关注

原创 【ETL工具】Kettle 实现 HDFS文件解析同步到SQLServer数据库(ETL 包括:时间格式化、IP校验、字段拼接)

说明:想用Kettle Shell 组件 做到 HDFS中 文件的移动 ,脚本的命令也很简单 ,mv将 加了 .completed 解析完成后的文件移动到 bak 目录,这块想用 kettle的 Shell 组件实现,另外一个思路是直接在 linux 做一个 定时的文件移动也是可以的。此处我的另外一个实现思路是在作业启动的脚本中开启 一个 linux的定时器 ,定时的 将 解析后的 HDFS 的 .completed 文件移动到 bak 目录,也在进一步改进中。就配置一个当前脚本的运行路径,就生效了。

2020-06-22 23:03:56 1364 2

原创 【ETL工具】Kettle 解析HDFS文件进行字段拼接、字符的替换和IP校验

字段的拼接使用 JS 脚本实现,JS脚本在 Kettle 中使用起来很是方便,目前我使用 JS 实现过 IP 校验、字段拼接、文件移动。过滤记录的使用说明,过滤记录 组件的使用在 业务分离是很好用的,尤其是对正则匹配、字段的过滤。此处我是简单的使用,数据清洗不是很复杂没有使用到正则表达式。HDFS 文件获取后,选择 JS脚本组件,在。中可以看到接收到的字段。组件过滤掉不合法的IP。

2020-06-21 21:46:05 1137 2

原创 Kettle转换中SQL中的执行顺序(使用 阻塞数据直到步骤都完成 ===》控制转换中的 SQL执行顺序)

为什么会用到这个组件我就是想着转换串行的执行,根据时间戳增量的同步,作业一开始我就获取当前的时间戳,kettle 完成数据之后,再执行时间更新操作,更像是动态的把时间向前推,因为作业执行也需要时间,公司传感器收集的数据会MySQL,数据几分钟刷新一次,不想丢失数据,也不能重复,尽可能保持数据一致性。kettle中转换和作业的执行顺序:1、一个作业内的转换,是顺序执行的。2、一个转换内的步骤是并行执行的。3、作业内不支持事务,转换内支持事务。根据业务需要,...

2020-06-10 15:41:35 6522 5

原创 【ETL工具】kettle 根据时间戳增量的将数据从MySQL同步SQLServer(linux部署脚本启动作业、config.properties 配置数据库)

​从MySQL 按时间增量同步到 SQLServer,MySQL中的数据会源源不断的写入,不会删除数据, SQLServer根据 MySQL表中的 modifytime 做增量同步就好,三台阿里云机器做数据的接入、计算、同步。

2020-06-10 14:15:09 2940 3

原创 【Ambari】FAILED:HiveAccessContorlException Permission denied: user[hive] does not havar[USER] privil

ranger则是针对组件内的权限 ,比如HDFS的读写执行,Hive和Hbase的读写更新,yarn的队列资源使用权,目前ranger只支持 hdfs,hive,hbase,kafka,yarn等组件,针对于组和用户对资源的访问权限进行细粒度的控制。

2020-06-09 09:41:22 4280 2

原创 【ETL工具】Kettle 数据同步 Caused by: com.microsoft.sqlserver.jdbc.SQLServerException

不能将值 NULL 列 'dataType',表 'test1.student';列不允许有 Null 值。INSERT 失败。 at org.pentaho.di.core.database.Database.insertRow(Database.java:1319) at org.pentaho.di.core.database.Database.insertRow(Database.java:1243) at org.pentaho.di.core.database.

2020-06-05 14:07:23 1339

原创 Apache Griffin 安装与简介

目录一、Griffin简介二、安装部署2.1 依赖准备1、初始化2、Hadoop和Hive3、Scala 安装4、 ES的安装与启动2.2 源码打包部署一、Griffin简介数据质量模块是大数据平台中必不可少的一个功能组件,Apache Griffin(以下简称Griffin)是一个开源的大数据数据质量解决方案,它支持批处理和流模式两种数据质量检测方式,可以从不同维度(比如离线任务执行完毕后检查源端和目标端的数据数量是否一致、源表的数据空值数量等)度量数据资.

2020-06-03 17:01:29 4987

python基础语法入门

Python语言的简洁性、易读性以及可扩展性,在国外用Python做科学计算的研究机构日益增多,一些知名大学已经采用Python来教授程序设计课程。例如卡耐基梅隆大学的编程基础、麻省理工学院的计算机科学及编程导论就使用Python语言讲授。众多开源的科学计算软件包都提供了Python的调用接口,例如著名的计算机视觉库OpenCV、三维可视化库VTK、医学图像处理库ITK。而Python专用的科学计算扩展库就更多了,例如如下3个十分经典的科学计算扩展库:NumPy、SciPy和matplotlib,它们分别为Python提供了快速数组处理、数值运算以及绘图功能。因此Python语言及其众多的扩展库所构成的开发环境十分适合工程技术、科研人员处理实验数据、制作图表,甚至开发科学计算应用程序。2018年3月,该语言作者在邮件列表上宣布Python 2.7将于2020年1月1日终止支持。用户如果想要在这个日期之后继续得到与Python 2.7有关的支持,则需要付费给商业供应商。由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)。这些平台包括Linux、Win

2024-05-01

HBase数据库性能调优

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。与FUJITSU Cliq等商用大数据产品不同,HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop

2024-05-01

2024 Redis面试宝典

redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。

2024-05-01

全国计算机二级十套历年真题

计算机二级考试是全国计算机等级考试(National Computer Rank Examination,简称NCRE)四个等级中的一个等级,由教育部考试中心主办,考核计算机基础知识和使用一种高级计算机语言编写程序以及上机调试的基本技能。考试采用全国统一命题、统一考试的形式,二级上机考试的成绩由考生交卷后由计算机直接评分给出,机器阅卷,并由考点汇总并与答题卡一起提交至教育部考试中心,教育部考试中心方面将试卷评阅完毕后,会将各省的成绩合格信息汇总并发回给各省的主考部门,并由各省的主考部门来决定具体的成绩公布的时间。

2024-04-30

Ambari用Ansible自动化部署大数据集群文档

【Ambari】Ansible自动化部署大数据集群.docx

2024-04-04

ambari使用ansible自动化安装

ansible自动化安装ambari-server, 自动化安装脚本

2024-04-04

Prometheus+Alert+Grafana打造企业级监控系统

Prometheus+Alert+Grafana打造企业级监控系统

2024-03-09

Java最新大厂面试宝典

秋招金九银十快到了,发现网上很多Java面试题都没有答案,所以花了很长时间搜集整理出来了这套Java面试题大全~ 这套互联网 Java 工程师面试题包括了:MyBatis、ZK、Dubbo、EL、Redis、MySQL、并发编程、Java面试、Spring、微服务、Linux、Springboot、SpringCloud、MQ、Kafka 面试专题 ———————————————— 版权声明:本文为CSDN博主「进阶的架构师」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/qq13321123/article/details/131416951

2023-10-11

程序猿面试简历模板精选

好的简历无疑是程序员面试的加分项,但是什么样的简历才算是一份好的简历呢?程序员的简历应该着重展示其技能和经验,吸引潜在雇主的关注。 程序猿面试简历模板精选10份简历模板,在简历的技能部分,列出你熟练掌握的编程语言和技术。可以根据申请的职位,调整技能列表,突出与目标职位相关的技能。 尽量使用具体的数据和统计来说明你在项目中取得的成就。例如,优化代码使其运行速度提高了多少倍,或者改进系统导致用户增长了多少。 如果你有参与开源项目或贡献的经历,可以在简历中加以展示。这可以显示你对编程社区的积极参与和对开源技术的贡献。 如果你获得过相关领域的认证或荣获奖项,可以在简历中加以突出。 提供你的GitHub或其他代码库链接,让招聘人员查看你的代码并评估你的编程能力。

2023-10-10

Windows-MySQL5.7安装部署手册

Windows-MySQL5.7安装部署手册

2023-10-08

k8s集群网络解决方案 calico.yaml k8s

calico是一个比较有趣的虚拟网络解决方案,它完全利用路由规则实现动态组网,通过BGP协议通告路由。

2022-10-26

harbor-https-cfssl生成证书

harbor-https cfssl 生成证书

2022-05-28

dbeaver-ce-6.3.1-win32.win32.x86_64.zip

连接 Hive ,SQL 执行 神器, dbeaver是免费和开源(GPL)为开发人员和数据库管理员通用数据库工具。易用性是该项目的主要目标,是经过精心设计和开发的数据库管理工具。免费、跨平台、基于开源框架和允许各种扩展写作(插件)。它支持任何具有一个JDBC驱动程序数据库

2020-02-14

SublimeText3_Build3083_x64_XiaZaiBa.zip

Sublime Text 还是一款跨 OS X、Linux 和 Windows 三大平台的文字/代码编辑器。拥有高效、没有干扰的界面,在编辑方面的多选、宏、代码片段等功能,以及很有特色的Minimap。   Sublime Text 是一个代码编辑器,也是HTML和先进的文本编辑器。   漂亮的用户界面和非凡的功能,例如迷你地图,多选择,Python的插件,代码段,等等。   完全可自定义键绑定,菜单和工具栏。   Sublime Text的主要功能包括:拼写检查,书签,完整的 Python API ,Goto 功能,即时项目切换,多选择,多窗口等等

2019-08-15

eclipse-jee-2018-09-win32-x86-64.zip

ecliPSe classic 是eclipse的标准版,Eclipse Classic的带有source建议使用Eclipse Classic,需要插件自己安装配置即可.Eclipse 还包括插件开发环境(Plug-in Development Environment,PDE),这个组件主要针对希望扩展 Eclipse 的软件开发人员,因为它允许他们构建与 Eclipse 环境无缝集成的工具。由于 Eclipse 中的每样东西都是插件,对于给 Eclipse 提供插件,以及给用户提供一致和统一的集成开发环境而言,所有工具开发人员都具有同等的发挥场所。

2019-08-12

npp.6.9.2.Installer.zip

otepad++ 内置支持多达27种语法高亮度显示(包括各种常见的源代码、脚本,能够很好地支持。nfo文件查看),还支持自定义语言。   可自动检测文件类型,根据关键字显示节点,节点可自由折叠/打开,还可显示缩进引导线,代码显示得很有层次感;   可打开双窗口,在分窗口中又可打开多个子窗口,允许快捷切换全屏显示模式(F11),支持鼠标滚轮改变文档显示比例;   提供了一些有用工具,如邻行互换位置、宏功能等;   可显示选中文本的字节数 (而不是一般编辑器所显示的字数,这在某些情况下,比如软件本地化很方便)。

2019-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除