自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 spark log4j日志文件动态参数读取

将上述key名spark.log.server和spark.log.server.port修改为非spark开头即可;需要在log4j xml文件中设置动态参数,并支持spark任务在集群模式下,动态参数读取正常;spark提交任务后driver和executer均需要获取上述参数初始化日志配置;设置了两个动态参数,logServer和logServerPort;spark提交任务时设定动态参数值即可;

2024-03-31 15:53:40 627

原创 java .class文件查看//INTERVAL ERROR//

反编译工具查看.class代码,某个文件一直error,其他正常,下载新版本的Java Decompiler就可以了,下载:

2024-02-22 11:26:59 194

原创 hive udf, tried to access method org.bouncycastle.math.ec.ECPoint$AbstractFp

hive udf添加包冲突解决

2023-04-26 09:40:15 1018

原创 hive udf自定义函数编写

idea maven自定义hive udf函数

2022-06-09 11:03:20 678

原创 spark-sql create table using orc

在分区表中使用不同建表方式,hive和spark-sql中insert overwrite data现象不同。1.问题出现过程1)spark-sql建表CREATE TABLE t_using(`user_no` STRING, `tt_slotid_req` STRING, `ks_slotid_req` STRING,`model` STRING, `follow_time` STRING, `bind_time` STRING, `reg_slotid` STRING, `geo_

2022-03-30 15:58:17 5436

原创 mysql安装

方法参考:https://www.cnblogs.com/summerday152/p/14100561.html启动mysqld.exe 报错:1.安装MySql的时候系统提示“找不到msvcp140.dll”https://blog.csdn.net/u013077984/article/details/1009124902.安装mySQL时出现报错找不到vcruntime140_1.dllhttps://www.cnblogs.com/mengjinxiang/

2022-03-11 11:38:59 861

原创 jdk8升级jdk11

做jdk升级处理,更改完JAVA_HOME后插卡仍为java8版本。手把手教你如何修改JDK的版本问题_allen_csdns的博客-CSDN博客_如何更改jdk版本参考上述链接,删除了相关文件,其中我的文件目录和他的不一样,我的文件目录在C:\ProgramData\Oracle\Java\javapath 下...

2022-03-09 11:19:24 1074

原创 spark-sql多级分区 小文件合并

spark-sql表运行缓慢,查看后发现上游数据小文件数多,单个文件6.8M或15M,均在20M以内,每个分区小文件个数达几千个,运行起来非常缓慢;网上很多hive sql的优化,常见hive sql优化合并小文件(spark-sql客户端也可以):set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;set mapreduce.input.fileinputformat.split.ma

2022-02-18 20:40:05 1650

原创 sparksql和hive yyyy-mm-dd和yyyymmdd之间的转化问题

发现个问题,我不李姐1.yyyy-mm-dd ---转化--->yyyymmddselect from_unixtime(unix_timestamp('2021-12-15','yyyy-mm-dd'),'yyyymmdd')spark-sql:hive:2.yyyymmdd ---转化--->yyyy-mm-ddselect from_unixtime(unix_timestamp('20211215','yyyymmdd'),'yyyy-mm-d...

2021-12-15 18:41:10 3907

原创 hive sql子查询缓慢

查询数据最新分区,有时候数据不是t-1的,需要获取到最后一次的分区数据,之前使用的是最大分区:select user_no,score from table_awhere pday=(select max(pday) from table_a)上述方式为子查询,会扫描所有分区执行非常缓慢,经查询发现,join管理会更快,如下:select user_no ,scorefrom (select max(pday) pday from table_a where pday&g.

2021-12-03 18:51:42 1800

原创 python脚本中sparksql split |竖杠竖线

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入python脚本中需要拆分 ‘|’ 连接字段,需要5个 反斜杠 \转义如: spark-sql -e ‘select sp

2021-10-19 22:19:49 984

原创 关于crontab调度执行脚本,数据丢失问题

使用crontab配置脚本调度,结果第二天执行完后,发现数据量有问题,大部分数据都丢失了。上网查了下原因,发现是用户环境问题,需要在执行脚本前,加载环境:source ~/.bashrc...

2020-03-19 20:35:12 853

原创 踩坑之不可见字符\u200B

这个坑我必须记录下来,坑了我好几天,把我给坑惨了!!最近在做个手机号加密,发现用md5加盐: "5bf30d7a",相同的盐值得出的md5却不同,hive sql关联不上已加密的数据,一度怀疑人生,怀疑写的md5 udf有问题,硬生生扛了三天,没找出问题。今天打开了idea,结果:我吓到了。。。好吧 不管怎样 找到原因 结果都是开心的!!...

2020-03-19 16:13:07 2727

原创 全国地区对应身份证号码值关系----身份证号前6位

省份码值 省份 城市码值 城市 县级 县级 11 北京市 1100 北京市 110000 北京市 11 北京市 1101 北京市市辖区 110101 东城区 11 北京市 1101 北京市市辖区 110102 西城区 11 北京市 1101 北京...

2020-02-29 17:50:48 8066 2

原创 全国地区对应身份证号码值关系--身份证号前2位

省份 对应身份证前两位 北京市 11 天津市 12 河北省 13 山西省 14 内蒙古自治区 15 辽宁省 21 吉林省 22 黑龙江省 23 上海市 31 江苏省 32 浙江省 33 安徽省 34 福建省 35 江西省 36 山东省 37 ...

2020-02-29 11:07:24 9905

转载 python 重启进程并返回进程pid

今天写了个python监控进程脚本,需要知道重启进程后的进程pid。在网上查看到一些方法,参考链接:https://www.jb51.cc/linux/440314.htmlimport osimport subprocess# 查询PID是否存在progresses = os.popen("ps -eo pid|grep '%s'" % pid)if len(pro...

2019-11-29 21:49:01 2239

原创 MySQL的外键约束情况下插入数据

有外键约束情况下,对表进行操作会报错:如:Cannot add or update a child row: a foreign key constraint fails (`dsp`.`dsp_rpt_olap_resource_info_daily`, CONSTRAINT `dsp_rpt_olap_resource_info_daily_ibfk_1` FOREIGN KEY (`...

2019-11-29 21:14:10 3559 3

翻译 python MySQLdb 编码问题 UnicodeEncodeError:'latin-1' codec can't encode character..

写python脚本插入数据库时,报了编码问题。数据库表的设计各方面都是utf-8编码的,MySQLDb把数据编码为latin-1,查询网上的修改方式:conn.set_character_set('utf8')cure.execute('SET NAMES utf8;')cure.execute('SET CHARACTER SET utf8;')cure.execute('SET...

2019-11-29 18:55:13 360

原创 remote: HTTP Basic: Access denied fatal: Authentication failed for

gitlab修改密码,导致本地download的密码不一致,报错。需要修改本地密码,就可以。win10进入控制面板》用户账号》凭据管理器?windows凭据》普通凭据,在里面找到git,点开编辑密码,更新为最新密码之后就可以正常操作了。https://www.cnblogs.com/jiaxiaonuo/p/9754347.html...

2019-11-29 17:07:38 2299

原创 pycharm首次写pyspark相关包引用

1.下载spark安装包http://archive.apache.org/dist/spark/spark-2.3.2/2.$SPARK_HOME/python的pyspark目录拷贝到$PYTHON_HOME/Lib下

2019-11-13 16:28:59 184

原创 linux下mysql8安装

今天折腾了一下午,安装了mysql8.0.17.官方查看安装步骤https://dev.mysql.com/doc/refman/8.0/en/binary-installation.html。根据我个人的安装情况,重新写一下安装过程,中间出现的问题,我在文章最后统一记录了下来。wget http://repo.mysql.com/mysql-community-release-el7...

2019-08-21 20:32:14 380

原创 hive/mysql/oracle/postgresql元数据信息查询

近期在写项目中需要查询各种数据源的元数据信息,目前做了hive/mysql/oracle/postgresql四中数据源的支持: 表名查询1、 mysql jdbc连接`information_schema` select TABLE_NAME from TABLES where TABLE_SCHEMA='dbName' 2、h...

2019-05-30 16:30:57 1008

转载 maven飘红,多项目引用,Maven:Failed to read artifact descriptor for ...

maven依赖包一直飘红,试了网上各种方式都不行,最后找到了:终于发现是子项目依赖的问题,解决了,非常感谢https://www.cnblogs.com/wpbxin/p/9715114.html

2019-05-07 17:30:50 355

转载 linux安装phantomjs

网上看到很多安装文档,都是加软链接的,不喜欢这种方式。看到如下这篇文章正是我想要的,https://blog.csdn.net/q5841818/article/details/77533017最后验证安装:# phantomjs --version...

2019-02-26 19:42:54 6122

原创 linux安装node环境

1、下载wget https://nodejs.org/dist/v9.8.0/node-v9.8.0-linux-x64.tar.xz2、解压xz -d node-v9.8.0-linux-x64.tar.xztar -xvf node-v9.8.0-linux-x64.tar3、   cd node-v9.8.0-linux-x644、配置PATHvim ~/.ba...

2019-01-17 21:11:26 159

原创 在vue中集成使用mermaid画图

做项目需要展示表与表之间的依赖,前期先简单展示下,markdown中就可以画图,使用的是mermaid语法,于是我想在前端框架中集成mermaid。github地址:https://github.com/knsv/mermaid语法使用:https://mermaidjs.github.io/ 注:我已经使用vue-cli搭建了脚手架在前端框架中集成:1、安装项目根路径...

2019-01-16 19:07:13 12615 2

原创 vue+element使用el-select选择器中value值采用拼接方式

最近在做一个项目,想要拼接选择器的value值,解决方法:<el-form-item label="依赖表:" prop="dependTables"> <el-select v-model="calculateForm.dependTables" multiple filterable placeholder="请选择" style="width:100%&quo

2019-01-09 10:14:29 11837 2

转载 spark集群启动后,子机器上有worker进程,但在master机器上打开webui,worker却只有master是为什么?

个人在学习时,电脑突然更新了,导致虚拟机关闭,伪集群挂起。重新打开时,发现spark集群启动后,worker进程启动,但并没有在master上注册。百度了下,发现防火墙打开了。。。转自https://segmentfault.com/q/1010000010586142关闭防火墙后master和worker之间能正常通信了。$ service iptables status ##查看防...

2018-11-17 21:07:35 2772

转载 mysql服务无法启动,服务没有报告任何错误

参考链接:https://www.cnblogs.com/cenwei/p/6249856.html我下载的mysql版本是5.7.22-x64版本,按照网上安装教程,执行命令mysql install成功,执行至:net start mysql,报如下错:解决:进入到mysql安装目录下bin目录执行mysqld --initialize-insecure --user=my...

2018-07-20 17:07:01 229

原创 zookeeper的学习

1、zookeeper的功能监听:为客户端监听指定数据节点的状态并在数据节点发生变化时,通知客户端管理数据:以key/value的形式为客户端管理少量数据2、zookeeper集群的安装1)上传安装包并解压2)修改conf/zoo.cfgcp zoo_sample.cfg zoo.cfg    ## 起作用的配置文件是zoo.cfg修改zoo.cfg# The number of millisec...

2018-06-23 16:37:32 135

转载 linux下root文件夹被删除

手残把 /root/ 里面的文件删除了..mkdir /rootcp -a /etc/skel/.[!.]* /root主要是把 /etc/skel/里面的文件拷贝回去就行了转自https://blog.csdn.net/minicto/article/details/53693765...

2018-06-23 12:48:31 4696

转载 idea使用mybatis-generator反向代码生成器

摘自 https://blog.csdn.net/xupengbo527/article/details/78967511

2018-06-14 20:11:01 527

原创 关于mapreduce中context.write同一对象不同值是否会覆盖问题的了解

在写mapreduce代码时,有时context.write()同一对象(对象的值会改变),会造成覆盖的问题吗?我们了解ArrayList在内存中,对象也在内存中,ArrayList存储的是对对象地址的引用,不停更改值后add到ArrayList中,那么所有的值都被覆盖,因为地址都是同一个。但context.write()同一对象(值不同)时,不会出现这种情况,因为它直接被序列化存储了,不会被覆盖...

2018-06-09 17:01:24 1452

原创 mapreduce的编程模型

mapreduce编程模型核心为将数据运算流程分为两个阶段:    拆分,读取原始数据,形成key-value数据(map方法);    聚合,将相同key的数据聚合到一组(reduce方法)。maptask:    读数据:读取原始数据,形成key-value数据;    通过Mapper类的map方法对数据进行处理;    排序:将数据按照key.compareTo()方法进行排序;    分...

2018-05-29 22:21:11 3726

原创 org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

最近在练习mapreduce编程代码,在使用Windows本地测试时,报错:Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z网上找了好些解决方式,大多都说的缺少hadoop.dl...

2018-05-17 14:54:07 692

原创 hdfs的简单Java客户端访问

1、下载解压hadoop    个人使用的是hadoop-2.9.0版本,官网下载,并解压;    配置环境变量HADOOP_HOME,%HADOOP_HOME%\bin 添加至Path中;    打开cmd,输入hadoop,会出现hadoop的命令使用帮助情况:安装成功;2、idea下创建Java项目file-->New--> Project-->Java,jdk设置一直点击...

2018-05-09 16:44:41 1294

原创 四、hdfs命令简单使用和mapreduce例子测试

1、hdfs使用$ hdfs dfs -ls / # 查看hdfs文件系统中根目录$ hdfs dfs -mkdir /wc/input # 在根目录下创建一个目录wc    # 上传文件到hdfs文件系统中$ hadoop fs /usr/local/hadoop-2.9.0/etc/hadoop/*.xml /wc/input2、mapreduce例子运行运行测试例子:$ cd  /usr/l...

2018-05-02 23:57:46 873

原创 三、Unable to load native-hadoop library for your platform... using builtin-java classes where appl...

hadoop安装完成后,找些教程想看看hdfs命令使用,发现不管用什么老报下面这个警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable。1、查看日志信息,找寻报错原因;...

2018-05-02 16:14:45 43615 2

原创 二、执行sbin/start-dfs.sh后,datenode没有启动

可能hadoop没有正常关闭,然后电脑虚拟机挂起了,重新启动时,发现datanode没有启动;查看datanode的日志:报错说,namenode clusterID和datanode clusterID不相容。主节点和从节点(个人只安装了一个从节点)的hadoop安装目录下,$ vim etc/hadoop/hdfs-site.xml查看namenode和datanode的目录:主节点和从节点分...

2018-04-28 15:25:33 4472

原创 一、hadoop2.x版本的集群安装

个人安装的是centos6.5,hadoop2.9.0。准备两台虚拟机,一台作为主节点master,一台作为从节点slave1。1、关闭防火墙,禁用selinux#service iptables status # 查看防火墙状态# service iptables stope # 若开启,则关闭# vim /etc/sysconfig/selin...

2018-04-28 10:37:59 433

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除