- 博客(17)
- 资源 (1)
- 收藏
- 关注
原创 家里的顶梁柱,社会的边角料
这么想的话大家清楚了吧,只要演好主角的角色就好了,其他的意思意思一下就好了,精力都放在琢磨如何当好主角的事情上。导致大家有这个想法的因素除了理想与现实的差距之外,我觉得还有一个重要因素,就是职场里上司对下属的尊重不够。曾经有个课程里老师做过分享,下属最想得到的激励并非升职加薪,而是上司公开的赞扬和认可。我们从小就被灌输长大后要做国家的栋梁,当社会主义的接班人的思想,与当下渺小的打工人身份相比,说是边角料都觉得有些抬举了。最近听到句水泥封心的话,我们这些打工人都是家里的顶梁柱,社会的边角料。
2023-01-19 09:21:21 1053
原创 解决Hive里date_add函数的问题
今天有同事反映,他的一个sql,在Hive里查不出结果,而在Spark里查出结果,非常诡异。于是拿他的SQL来实验:二、定位问题 分别在Hive里和在Spark里执行,发现真的如同事所说,Hive里查不出数据,而Spark里能查出数据。 起初怀疑是jhdate=‘null'的条件,在hive与spark里的判空的语法不同导致的,遂改为: 新的SQL在Hive里依然出不出数据。于是想将table_a表里的数据导出来,人肉看一下jhdate里是不是有脏数据导致hive计算出错,检索不出
2022-06-23 21:00:00 1422
原创 HDP3安装包分享(CentOS7版本)
有幸在HDP关闭之前,下载了当时较新的一个稳定版本3.1.5.0。在那之后,HDP与CDH彻底融合,删除了GitHub上的HDP源码,并且关闭了HDP的安装包。 当初HDP相对于CDH更加拥抱开源。CDH的manager还是闭源付费的,而HDP基于Ambari进行管理,实现了全组件开源、免费,被较多的中小型公司采用。 在各大云厂商的大数据组件推出之后,小微型公司转用阿里云的E-MR、Max-Compute或其他云厂商的大数据平台。大公司基于开源原生的Hadoop自己封装并搭建自己的大数据平台。剩下中
2022-06-14 19:59:45 1598 4
原创 以集群方式运行pyspark
一、背景说明 单机执行pyspark(python on spark)非常简单,只要在脚本所在服务器上部署个python环境或Anaconda这种集成运行环境,再通过python3命令执行就完了。 而想将python提交到spark集群中运行,则有两种方法,一种是在每个spark结点上部署python环境,在spark低版本与python集成没那么完善的时候,集群结点数又不多的情况下,的确可以这么干(实际上我就这么干过),这种方式比较大的优势是每次执行pyspark任务时,不用分发python环
2022-05-21 11:22:32 2719 2
原创 CentOS部署标准版JDK(实用简单全面)
一、卸载Open JDK 由于OpenJDK并非标准JDK,对NMA等一些模块有影响,所以对于需要部署NMA的设备,需先检查JDK版本。若系统使用的是OpenJDK,需先卸载OpenJKD,再安装Sun JDK。执行java -version,查看JDK版本,若为OpenJDK,则通过以下操作卸载OpenJDK 执行rpm -aq | grep java命令,查看本机已经安装的JDK软件包 通过rpm -e --nodeps OpenJDK相关的软件包名卸载OpenJDK。二、安装...
2022-04-29 21:15:00 595
原创 MYSQL中自动加一行汇总
背景 每天一早到公司,第一件事就是打开各种报表,查看平台运行情况。到了周末,睡完懒觉还是得爬起床远程回公司看报表数据。于是在周末的时候,将娃哄睡之后,开始着手写一下统计sql,定期执行后将结果汇总推送到企业微信。 问题就出现在“汇总”这个事。众所周知 sql的group by 能做分组统计,但是分组后还得再执行一次sql将结果汇总一遍,才能将分组统计结果加起来。如下面的SQL:select status, count(1)from action_historywhere create_
2022-04-18 18:30:00 3928 1
原创 解决Spark查询Hive表扫描不到HIVE_UNION_SUBDIR的问题
背景 使用Hive的insert overwrite/into select ... union all生成的Hive表数据时,会在原本的数据表目录下生成多个子目录(HIVE_UNION_SUBDIR_1、HIVE_UNION_SUBDIR_2),以存放数据文件(正常情况下数据文件会直接存放在数据表目录下)。 这时,如果使用spark-sql去查询该数据表的时候,会报 Not a file 的异常:Cause by: java.io.IOException: Not a file: hdf
2022-03-29 19:45:00 5076 2
原创 python扫描mysql库列表,并生成jdbc连接
扫描一批mysql实例(登记在instance.csv文件中),并且按指定csv格式输出该实例中所有db的信息
2022-03-03 18:30:00 1129
原创 Java深度克隆对象
关于对象的克隆,Java自带了一个clone()方法。 但是众所周知,这个clone()方法只是做浅层的对象复制,仅适用于对象属性是简单数据类型(int/long/float等)的场景。对于对象属性是对象的情况,就不适用。于是就有深度克隆对象场景。 深度克隆对象的总思路就是编码化再反编码,如下面的例子,就是将对象编码化是Bytes,然后再由Bytes反编码回对象。public Object deepClone(){ // 1.将对象写到流里 ByteArrayOuto
2022-02-07 18:30:00 876
原创 使用VirtualBox的时候不要开启内核隔离
Windows10如果想正常使用VirtualBox,除了不要开启Windows自带的Hyper-V之外,千万不要开启内核隔离。
2022-01-27 17:29:08 14517
原创 Python3实现Excel两个Sheet的全连接
背景现有一个Excel的两个Sheet表,需要对其进行全连接合并。对标的mysql语句是:(SELECT * from a left JOIN b on a.name=b.id) UNION (SELECT * from a RIGHT JOIN b on a.name=b.id );表结构说明Sheet1表名为exp,共4个字段,分别是包名、应用名、异常时间和异常次数 Sheet2表名为startup,共4个字段,分别是包名、应用名、启动时间和启动次数 输出Sheet表名为out
2022-01-24 12:03:09 2532
原创 Linux kill掉ps出来的进程
在日常工作中,偶尔会遇到不小心大批量启动脚本的操作,需要批量kill掉这些进程。此时可以用linux的复合命令来执行,先ps出特征进程,然后再一起kill掉,命令模版如下:ps -ef | grep yarn_scheduler | grep python3 | awk '{print $2;}' | xargs kill -9...
2022-01-12 16:53:16 2782
原创 Linux命令结果输出说明
Linux执行命令、脚本或程序后,有两种输出,一个标准输出,另外一个是错误输出。具体用法和区别如下:ll > log.txt # 标准输出重定向到log.txtll 2> err.txt # 错误输出重定向到err.txtll > log.txt 2> &1 # 标准输出和错误输出重定向到log.txt值得注意的是,有些程序将日志由标准输出流中输出,如hadoop fs -ls ,又有些日志是从错误输出流中输出。因此通常情况下,采用第三种方式(> l
2022-01-12 16:32:52 2768
原创 工欲善其事,必利其器
工欲善其事,必利其器。大器在手,心仍需保持平静。所谓 非淡泊无以明志,非宁静无以致远。钻研技术,先学会平静内心。般若波罗蜜多心经------观自在菩萨,行深般若波罗蜜多时,照见五蕴皆空,度一切苦厄。舍利子,色不异空,空不异色,色即是空,空即是色,受想行识,亦复如是。舍利子,是诸法空相,不生不灭,不垢不净,不增不减。是故空中无色,无受想行识,无眼耳鼻舌身意,无色声香...
2017-01-12 10:43:10 629
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人