私奔到月球2023-CSDN博客

原创博客停更说明

由于某种原因，本平台的博客不再更新。

2023-03-17 20:16:24 146 1

原创系统架构师备考经验分享2023

架构师考试共分三科，每科都有不同的备考方式。每科总分75分，通过的条件是三科必须每科都在45分以上。

2023-01-20 13:00:00 1496 2

这么想的话大家清楚了吧，只要演好主角的角色就好了，其他的意思意思一下就好了，精力都放在琢磨如何当好主角的事情上。导致大家有这个想法的因素除了理想与现实的差距之外，我觉得还有一个重要因素，就是职场里上司对下属的尊重不够。曾经有个课程里老师做过分享，下属最想得到的激励并非升职加薪，而是上司公开的赞扬和认可。我们从小就被灌输长大后要做国家的栋梁，当社会主义的接班人的思想，与当下渺小的打工人身份相比，说是边角料都觉得有些抬举了。最近听到句水泥封心的话，我们这些打工人都是家里的顶梁柱，社会的边角料。

2023-01-19 09:21:21 1005

原创年终总结怎么做？

图中分了两部分，一个是思路，一个是模版。

2022-11-23 18:30:00 126

原创解决Hive里date_add函数的问题

　　今天有同事反映，他的一个sql，在Hive里查不出结果，而在Spark里查出结果，非常诡异。于是拿他的SQL来实验：二、定位问题　　分别在Hive里和在Spark里执行，发现真的如同事所说，Hive里查不出数据，而Spark里能查出数据。　　起初怀疑是jhdate＝‘null'的条件，在hive与spark里的判空的语法不同导致的，遂改为：　　新的SQL在Hive里依然出不出数据。于是想将table_a表里的数据导出来，人肉看一下jhdate里是不是有脏数据导致hive计算出错，检索不出

2022-06-23 21:00:00 1352

原创 HDP3安装包分享(CentOS7版本)

　　有幸在HDP关闭之前，下载了当时较新的一个稳定版本3.1.5.0。在那之后，HDP与CDH彻底融合，删除了GitHub上的HDP源码，并且关闭了HDP的安装包。　　当初HDP相对于CDH更加拥抱开源。CDH的manager还是闭源付费的，而HDP基于Ambari进行管理，实现了全组件开源、免费，被较多的中小型公司采用。　　在各大云厂商的大数据组件推出之后，小微型公司转用阿里云的E-MR、Max-Compute或其他云厂商的大数据平台。大公司基于开源原生的Hadoop自己封装并搭建自己的大数据平台。剩下中

2022-06-14 19:59:45 1568 4

原创以集群方式运行pyspark

一、背景说明　　单机执行pyspark（python on spark）非常简单，只要在脚本所在服务器上部署个python环境或Anaconda这种集成运行环境，再通过python3命令执行就完了。　　而想将python提交到spark集群中运行，则有两种方法，一种是在每个spark结点上部署python环境，在spark低版本与python集成没那么完善的时候，集群结点数又不多的情况下，的确可以这么干（实际上我就这么干过），这种方式比较大的优势是每次执行pyspark任务时，不用分发python环

2022-05-21 11:22:32 2642 2

原创 CentOS部署标准版JDK（实用简单全面）

一、卸载Open JDK　　由于OpenJDK并非标准JDK，对NMA等一些模块有影响，所以对于需要部署NMA的设备，需先检查JDK版本。若系统使用的是OpenJDK，需先卸载OpenJKD，再安装Sun JDK。执行java -version，查看JDK版本，若为OpenJDK，则通过以下操作卸载OpenJDK 执行rpm -aq | grep java命令，查看本机已经安装的JDK软件包通过rpm -e --nodeps OpenJDK相关的软件包名卸载OpenJDK。二、安装...

2022-04-29 21:15:00 579

原创 MYSQL中自动加一行汇总

背景　　每天一早到公司，第一件事就是打开各种报表，查看平台运行情况。到了周末，睡完懒觉还是得爬起床远程回公司看报表数据。于是在周末的时候，将娃哄睡之后，开始着手写一下统计sql，定期执行后将结果汇总推送到企业微信。　　问题就出现在“汇总”这个事。众所周知 sql的group by 能做分组统计，但是分组后还得再执行一次sql将结果汇总一遍，才能将分组统计结果加起来。如下面的SQL：select status, count(1)from action_historywhere create_

2022-04-18 18:30:00 3843 1

原创解决Spark查询Hive表扫描不到HIVE_UNION_SUBDIR的问题

背景　　使用Hive的insert overwrite/into select ... union all生成的Hive表数据时，会在原本的数据表目录下生成多个子目录（HIVE_UNION_SUBDIR_1、HIVE_UNION_SUBDIR_2），以存放数据文件（正常情况下数据文件会直接存放在数据表目录下）。　　这时，如果使用spark-sql去查询该数据表的时候，会报 Not a file 的异常：Cause by: java.io.IOException: Not a file: hdf

2022-03-29 19:45:00 4886 2

原创 python扫描mysql库列表，并生成jdbc连接

扫描一批mysql实例（登记在instance.csv文件中），并且按指定csv格式输出该实例中所有db的信息

2022-03-03 18:30:00 1109

原创 Java深度克隆对象

　　关于对象的克隆，Java自带了一个clone()方法。　　但是众所周知，这个clone()方法只是做浅层的对象复制，仅适用于对象属性是简单数据类型(int/long/float等)的场景。对于对象属性是对象的情况，就不适用。于是就有深度克隆对象场景。　　深度克隆对象的总思路就是编码化再反编码，如下面的例子，就是将对象编码化是Bytes，然后再由Bytes反编码回对象。public Object deepClone(){ // 1.将对象写到流里 ByteArrayOuto

2022-02-07 18:30:00 869

原创使用VirtualBox的时候不要开启内核隔离

Windows10如果想正常使用VirtualBox，除了不要开启Windows自带的Hyper-V之外，千万不要开启内核隔离。

2022-01-27 17:29:08 14309

原创 Python3实现Excel两个Sheet的全连接

背景现有一个Excel的两个Sheet表，需要对其进行全连接合并。对标的mysql语句是：(SELECT * from a left JOIN b on a.name=b.id) UNION (SELECT * from a RIGHT JOIN b on a.name=b.id );表结构说明Sheet1表名为exp，共4个字段，分别是包名、应用名、异常时间和异常次数 Sheet2表名为startup，共4个字段，分别是包名、应用名、启动时间和启动次数输出Sheet表名为out

2022-01-24 12:03:09 2503

原创 Linux kill掉ps出来的进程

在日常工作中，偶尔会遇到不小心大批量启动脚本的操作，需要批量kill掉这些进程。此时可以用linux的复合命令来执行，先ps出特征进程，然后再一起kill掉，命令模版如下：ps -ef | grep yarn_scheduler | grep python3 | awk '{print $2;}' | xargs kill -9...

2022-01-12 16:53:16 2679

原创 Linux命令结果输出说明

Linux执行命令、脚本或程序后，有两种输出，一个标准输出，另外一个是错误输出。具体用法和区别如下：ll > log.txt # 标准输出重定向到log.txtll 2> err.txt # 错误输出重定向到err.txtll > log.txt 2> &1 # 标准输出和错误输出重定向到log.txt值得注意的是，有些程序将日志由标准输出流中输出，如hadoop fs -ls ，又有些日志是从错误输出流中输出。因此通常情况下，采用第三种方式（> l

2022-01-12 16:32:52 2733

原创工欲善其事，必利其器

工欲善其事，必利其器。大器在手，心仍需保持平静。所谓非淡泊无以明志，非宁静无以致远。钻研技术，先学会平静内心。般若波罗蜜多心经------观自在菩萨，行深般若波罗蜜多时，照见五蕴皆空，度一切苦厄。舍利子，色不异空，空不异色，色即是空，空即是色，受想行识，亦复如是。舍利子，是诸法空相，不生不灭，不垢不净，不增不减。是故空中无色，无受想行识，无眼耳鼻舌身意，无色声香...

2017-01-12 10:43:10 610

私奔在线