自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

jyj019的博客

记录,分享

  • 博客(81)
  • 收藏
  • 关注

原创 hdp集群扩容

hdp扩容前检查在扩容前做好检查,很多问题都可以避免:检查磁盘是否挂载完成,尤其是对于数据盘。检查节点之间是否做好免密(非常重要):必须集群每个节点之间都要做好免密。检查java和python环境检查时间同步是否完成(ntp)添加yum源cd /etc/yum.repos.d/增加 amabri.repo HDP.repo HDP-UTILS.repo安装agentyum install -y ambari-agent在url新增节点和免密...

2022-01-10 20:30:11 1307

原创 hdp环境下ip更改

当前有大数据需要迁移环境,更改ip,涉及yarn,oozie,hdfs,hive等应用。这种事情一般做的比较少,事前做了大量的备份。最后结果还是比较顺利。

2022-01-10 20:12:41 1775

原创 Hbase手动修复表

最近在运维时候,发现有个hbase表挂载错误,需要手动修复hbase元数据,具体操作如下:

2021-11-24 20:30:38 525

原创 kylin数据清理之删除过期segement

虽然有手动删除segement的方式,但是对于segement很多的比较麻烦,同时disable cube对于数据操作也有一定不确定性,故采用批量删除segement的方式删除数据。

2021-11-24 19:24:34 1588

原创 kylin卡死问题排查之kylin元数据备份修复

近期发现部分segement合并新建出现问题,查询错误日志均无异常。想起在手动删除segement表时发现部分表无法删除。最后查询kylin的元数据表,查询备份的表发现部分元数据存在NEW状态表(该表只有目录,未创建hbase表,jobID查询为空,所以无法查询)

2021-11-24 18:43:32 1614

原创 XShell和Xftp安装

今天突然跟我说xshell评估期已过,直接断掉,根据百度,用了一上午解决该问题,其中不少教程限于时间因素,有一定问题,所以在此总结下。

2021-05-19 11:05:39 117

原创 常见数据处理方法

有时候更多数据处理从语言角度,调用不同api处理数据。但是从业务的角度想就很少了,最近从业务的角度了解了下常见数据处理的方法,总结如下:

2021-05-14 09:16:01 9854

原创 交付文档注意事项

最近涉及到项目交付,编写了很多技术文档,但因为没有经验导致多次修改,尤其是客户和我们技术人员的关注点其实是不一样的,就导致我没有抓住重点,导致反复修改,这里总结下我的一些经验。文档与技术协议合同对应就我所经历的项目,前期的技术要求和最后的项目有一些细节的偏差。最后交付文档的时候更多应该以技术协议和合同为准。并且需要突出体现里面的内容。注意题名一致项目名称与文档名称必须前后一致,不能多,不能少,不然会产生歧义。部分问题不好总结,不过待补充了,...

2021-02-09 15:17:10 589

原创 hive基础语句(包含创建表和插入数据)

最近在研究hive的一些基本的使用和操作,发现有些语句的使用和一般的sql还有一定的差别。网上的文章还是比较杂乱,因此我在这里进行一些总结,扩展。

2021-02-09 14:15:30 6634 1

原创 hive卡死问题(进入服务卡死)

最近安装了一套测试系统,在测试系统的时候,发现有服务正常,但无法进入hive的后台界面。不管是输入hive 还是具体的hive -e 语句执行,都有相应的问题。最后问题定位为相应组件问题。

2021-01-06 16:14:28 3521

原创 在linux通过tomcat部署war包,解决Redhat6.8采用tomcat8部署失败问题

最近需要通过tomcat部署war包,但很多步骤不熟悉,也遇到了各种各样的问题,这里就部署的特别步骤和各种问题做一个记录

2020-11-12 10:54:15 234

原创 Netty参数配置

最近使用netty,逐渐有了这个认识,netty就是把很多较为复杂的原理性的东西,抽象为一些配置,通过netty实现什么,更多的是采用什么配置。就简单的入门和使用来说,了解配置也是很关键的一步这是两个常见的demo,根据demo来逐渐分析netty的参数含义,常见参数类型,以及枚举,还有这些参数的适用点//设置reacotor线程组 b.group(bossLoopGroup, workderLoopGroup); //设置Nio类型的channel

2020-11-11 09:17:48 1845

原创 NIO和Netty笔记和总结

最近因为编写接口,需要使用到netty,但是我对于niio和netty一直难以入门,这次准备采用边看边记录的方法。大致计划从nio基础和通信流程过度到netty的应用。

2020-11-02 14:41:35 345 1

原创 大数据现有架构

现在收集一些常用的大数据常用结构范式,进行一个汇总,作为一个概念性的东西,目前不涉及具体的技术架构

2020-11-02 09:38:54 325

原创 数仓相关知识点/笔记(OLTP和OLAP)

现在实时数仓是一个非常火的趋势,最近开始逐渐了解一些数仓相关的东西,从基础的理论知识包括架构,算一个基础总结和学习记录吧。不定期补充更新

2020-11-02 09:22:26 710

原创 本地源HDP(Ambari)安装配置(二)(centos6安装)

关于HDP总结吧,其实说全很多文章都写的很全,这里就自己踩过印象深的地方/和别人有区别的地方写一点吧检查在安装之前建议按需要步骤检查环境,避免之后奇奇怪怪的错误。检查,包括关闭SELINUX,关闭防火墙,打开httpd,配置host,检查jdk数据库,还有时间同步等关闭SELINUX修改配置文件,再机器重启生效:vi /etc/sysconfig/selinux #修改配置#SELINUX=enforcingSELINUX=disabled关闭防火墙vi /etc

2020-10-20 15:59:52 619

原创 HDP安装(一)之postgres和mysql数据库安装配置

ambari安装部署步骤,我看了大概有十多篇了,标题都差不多,真的。但是自己安装之后确实发现自己在这些文章里学到了很多东西,一次安装部署遇到了非常多的问题,这里就其中觉得棘手的数据库配置总结一二。ambari采用了两个数据库,其中postgres 作为内置数据库,mysql作为oozie需要的数据库均做了配置,这里就分开讨论遇到的问题:postgres一般来说自带postgres,安装好就行,但centos6版本自带过低,需要自行安装配置。因为yum配的本地源,所以是从官网下载postgres,

2020-10-20 14:19:32 850

原创 rpm文件安装问题集

rpm文件安装最近安装hdp的时候出现很多包缺失,但yum配置本地源,只能采用rpm安装本地包的形势进行安装,这里就这些问题做一个总结。1 rpm安装包源因为系统安装步骤复杂,不同的安装包用到了不同的安装源,这里大体罗列下。1 组件rpm ,例如postgres,mysql等,在官方下载其rpm版本。2 系统rpm,例如lsb和devel等包,可以在系统盘挂载的系统包库里面找,这种能保证版本正确,我这次装系统的系统包路径是 /media/RHEL_6.5 x86_64 Disc 1/P.

2020-10-19 19:50:16 613

原创 java启动脚本解析

这个问题是基础常见问题,但也正是因为这一点点没注意,把自己坑了两天,感觉必须要总结下这个吧这个问题的直接原因是读配置出错if [ -z "${PROJECT_HOME}" ]; then export PROJECT_HOME="$(cd "`dirname "$0"`"/..; pwd)"fiPROJECT_CONF_DIR=${PROJECT_HOME}/conffor f in ${PROJECT_CONF_DIR}/*.*; do CLASSPATH=${C.

2020-07-24 09:17:09 279

原创 python server端开发部署问题(通过nginx反向代理部署多台机器)

嗯,作为一个不正经的开发问题记录,感觉与其说是给别人看的,不过是更多写个自己的一个记录,承接之前安装的大大小小的问题吧,想必应该也没有太多人看。自己的问题及解决方案也是基于其他很多类似问题或者分解出的小问题而来的,问题是一方面,思路也大概记一下吧。

2020-04-28 09:08:23 405

原创 Python环境安装一些问题记录

这次因为工作需要,要配置了一些python的环境,需要支持很多库。自己一路下来还算顺畅,不过也算踩了些坑,在此试着进行总结。随着工作的需要还会逐渐补充一系列问题这里anaconda安装和版本问题根据https://www.jianshu.com/p/742dc4d8f4c5上面简单入门找到国内的开源镜像站https://mirrors.tuna.tsinghua.edu.cn/anacon...

2020-03-06 09:33:47 1794

原创 主数据及编码

之前做数据梳理的时候对主数据进行了一个总结,虽然项目没有很好的开展,不过对我来说也是有很多收获的,这里把之前用到的一些文档总结如下。 术语和定义 主数据早期以 ERP 为代表的制造业集成应用系统的发展过程中,产生了信息孤岛和数据处理危机问题。为了解决这些问题,主数据这个概念随之诞生。目前,对主数据的定义没有统一,一些 MDM 产品提供商和学者提出了各自对主数据的定义,如下:Da...

2020-01-26 12:03:40 8568

原创 nohup运行sqoop卡顿问题

最近因为工作需要开始接触hive和mysql的数据加载,其中hive向mysql存储数据时,其中有些任务采用了nohup的方式后台执行。遇到了下面这个问题,因目前难以排查,现做一个记录。情况描述环境:脚本内容为循环执行nohup &后台执行发现,任务显示暂停[1]- 2856 Stopped (tty output) nohup ./diaodu.sh同时查询mysq...

2019-09-10 20:15:05 622 1

原创 hive向mysql导入数据错误问题( java.lang.RuntimeException: Can't parse input data:)

最近因为工作需要开始接触hive和mysql的数据加载,其中hive向mysql存储数据时,因为hive 表的格式可能导致错误。下面讲下这个问题。

2019-09-08 11:10:49 5180

原创 反射泛型相关类问题总结(java.lang.IllegalArgumentException: argument type mismatch)

最近编写接口的时候使用了反射机制,读取一个jar包的方法,但该方法使用了不定长参数 Object...,进而关联到Object[] 因此产生了一些问题,在此进行下总结。获取方法泛型问题:输入参数是 int nargout, Object... rhs 返回参数是 object[] ,存在同名的重载方法,在执行获取方法时多次失败。cls.getMethod("funtionName...

2019-07-25 16:19:45 870

原创 log4j2日志迁移总结与问题

最近为实现日志的分类,压缩,将log4j升级为log4j2。虽然有很多文章对其中配置讲的很详细,但实践中仍有不少细节值得补充,虽然看着比较零散,但希望对再次遇到这些问题的有所帮助。

2019-07-17 08:36:59 361

原创 hdfs写入缓慢问题:思路分析与问题解决

最近遇见加载程序写入hdfs速度缓慢问题。经过长时间的分析后解决,这里写下思路和解决方案。

2019-06-04 21:15:47 7268 3

原创 阻塞队列的GC问题

最近使用队列存放数据,发生了一次GC问题,这里记录一下。

2019-06-04 20:58:08 507 1

原创 kafka指定偏移量拉取与偏移量半自动提交

离去年写了有关偏移量有关文章快一年了,但最近在偏移量方面遇到了些小问题,在这里记录下。还有关于偏移量半自动提交,是个很经典的问题,顺便也记录下。

2019-06-02 10:36:03 1886

原创 java原生项目监控设计思路(二)

之前写过第一版监控思路,收到我都想不到的关注度,后面梳理需求进行了一个更大范围的监控,并支持后续报表的生成。最近因为资源增加,也在关注elk监控相关思路,之后应该也会有新的文章产出(把监控的坑越挖越大),现在结合旧版讲下设计思路和实现。设计思路:这次专注于数据量监控,因为这是一个痛点。同时每天数据量能直观对数据接入是否成功进行验证,同时比对每个模块数据是否正常写入,发现延迟卡死等问题。...

2019-05-31 14:51:14 242

原创 Spark Streaming写入tsdb卡死问题

最近写入程序经常出现写入tsdb卡死问题,经过比较久排查后解决,这里记录下。对我个人而言加深了spark程序和yarn资源管理关系的认知。

2019-05-29 21:29:43 522

原创 在shell中用kylin查询的引号问题

因开发需要在shell上编写脚本作为查询kylin相关数据,在查询的过程中因为引号导致列无法识别。后面在同事的l和x的帮助下得出了一个可以使用的解决方案,以供参考。

2019-04-30 08:44:48 492

原创 flink按字段对齐的流合并的实现

flink按字段对齐的流合并的实现最近在用flink重构storm程序,遇到了一些问题,其中比较麻烦的就是storm中的流合并如何在flink中实现。需求根据每条数据内的时间属性(同一类型的字段),拼装同一时间的多个流数据为一个流数据,尽可能保证只要能合并的数据时间戳对齐。在storm中通过fieldGrouping可以很简单的实现。.fieldsGrouping("test1", ...

2019-03-17 11:22:44 4517

翻译 Flink window(二)(翻译官方文档)

我准备实际使用中mark一些关键的知识点/api。以窗口是flink一个重要的概念,flink提供了很多种窗口的使用方式,以下为窗口相关文档的第一部分,包含目录窗口功能中窗口折叠函数后的内容。3.17更新:这周发现了一个翻译好的文档地址https://flink.sojb.cn/,其完整性和正确性比我翻译好太多,故这方面不再更新。

2019-03-05 08:45:52 555

翻译 Flink window(一)(翻译官方文档)

我准备实际使用中mark一些关键的知识点/api。以窗口是flink一个重要的概念,flink提供了很多种窗口的使用方式,以下为窗口相关文档的第一部分,包含目录窗口功能中窗口折叠函数前的内容。3.17更新:这周发现了一个翻译好的文档地址https://flink.sojb.cn/,其完整性和正确性比我翻译好太多,故这方面不再更新。

2019-03-05 08:44:43 386

翻译 Flink DataStream转换(翻译官方文档)

最近准备用flink对之前项目进行重构,这是一个有挑战(但我很喜欢)的工作。几个月过去了,flink社区比起我做技术调研那阵发生了很多变化(包括blink的版本回推),我这边的版本也由1.4->1.7.2。现在网上有很多大方向的解析(阿里的几次直播),也有大神对框架的深入解析。我准备实际使用中mark一些关键的知识点/api。以下就是我翻译的flink流计算DataStream发现了一个翻译好的文档地址https://flink.sojb.cn/,其完整性和正确性比我翻译好太多,故不再更新

2019-03-02 08:58:56 1830

原创 Storm程序的mysql连接问题及可行的处理方式

最近遇到的连接问题我准备从重构的几个程序(redis和mysql)长连接和短连接,以及连接池和单连接等问题用几篇博客来总结下。这是最后一篇。Storm程序因为有他本身框架的组合方式,只有再要输出的bolt创建jdbc对象(看起来和redis和hbase没什么区别)。但实际上却有不少的坑(有些坑我现在都没明白,只能说根据经验规避),最后两点体会:尽量不要再storm程序中用mysql。尽量减少storm程序中创建jdbc连接的bolt。

2019-01-27 09:27:20 1203 1

原创 java原生程序mysql连接(Durid连接池和普通连接)选择问题

最近遇到的连接问题我准备从重构的几个程序(redis和mysql)长连接和短连接,以及连接池和单连接等问题用几篇博客来总结下。这个问题的具体发生在java原生程序和mysql的交互中。心得和上一篇一样,不过没用好也有对连接池的不熟悉的原因,连接池本身的api和配置项,以及与一些框架的集合仍然是值得研究的问题(这次因为方向问题先回避了)。

2019-01-16 22:49:16 990 1

原创 java原生程序redis连接(连接池/长连接和短连接)选择问题

最近遇到的连接问题我准备从重构的几个程序(redis和mysql)长连接和短连接,以及连接池和单连接等问题用几篇博客来总结下。这个问题的具体发生在java原生程序和redis的交互中。这个问题对我最深刻的教训就是说明获取连接不能迷信连接池和原封不动的搬运以前代码的utils。在连接的建立的一开始就应该思考连接的稳定性和是否应该关闭连接。否则这些问题在线上运行十几个小时可能才会暴露。

2019-01-15 21:35:12 10468 8

原创 java原生项目监控设计思路

之前一个月准备完成项目的监控,但资源紧张,所以没采用成熟的框架而是用java原生程序实现了对项目的监控。这套监控程序更多的是从使用者角度(比较抽象),而且由于项目时间紧,我甚至没时间去参考现在开源的程序监控框架,所以也没法理论联系实际(笑),下面讲下思路和遇到的一些问题吧。设计思路:接入数据 验证数据接入是否正常,确定是数据源还是之后程序的问题应用程序 监控应用程序是否正常启动,防止多...

2019-01-15 19:58:02 4578 9

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除