- 博客(8)
- 资源 (12)
- 收藏
- 关注
原创 Kyuubi1.4.0集成spark3.2.0
kyuubi集成spark3.2.0 文章目录 前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结 前言 提示:这里可以添加本文要记录的大概内容: 例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。 提示:以下是本篇文章正文内容,下面案例可供参考 一、pandas是什么? 示例:pandas 是基于NumPy 的一种工具,该工具是为了解决.
2022-05-31 10:28:33
1522
原创 kyuubi1.2.0基于spark3.1.2单机模式部署
一、第一步编译 spark3.1.2、hadoop 3.0.0 、cdh6.0.1 hive版本默认2.3.7,使用hive2.1.1需要修改源码(在此不做赘述) 二、Spark配置 1、修改spark配置文件 cd /data12/spark3/conf cd /data12/spark3/conf # 把hive hdfs 相关配置文件的软连接构建起来 ln -s /etc/hive/conf/hive-site.xml hive-site.xml ln -s /etc/hive/con
2022-05-31 09:59:33
1101
原创 hbase .tmp目录持续增涨问题
一、背景 /hbase/.tmp/data/gzfx/k_user_rate_ecgi_hour1目录下的文件持续增涨。 HMaster日志: Causedby:java.io.IOException:Thespecifiedregionalreadyexistsondisk:hdfs://nameservice1/hbase/.tmp/data/gzfx/k_user_rate_ecgi_hour1/88aef651f4d2e3c72f7f9778c1393151 ...
2021-05-11 17:00:52
640
原创 Sparkthrift合并小文件
背景 1、许多Spark SQL用户都要求一种方法来控制Spark SQL中的输出文件数; 2、Scala/Java/Python代码中可以使用coalesce()和repartition()方法有效的控制Spark文件数量; 3、但用户需要在SparkSQL服务的SQL语句中使用提示; 4、建议在SparkSQL中添加以下Hive样式的COALESCE和REPARTITION提示。提示名称不区分大小写。 Spark2.4前合并小文件 1、方法(在连接SparkSQL后,增加相关参数或者添加到服
2021-05-11 16:48:55
475
原创 重新编译Spark2.4.0 Parcels包
1、下载修改的parcel包 2、使用压缩工具打开parcel、替换需要的jar包,改案例中替换和新增的jar如下: httpclient-4.5.6.jar parquet-format-2.5.0.jar 3、根据文件内容生成hash certutil -hashfile C:\Users\15755\Desktop\parquet\SPARK2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el6.parcel SHA1 4、修改下面三个文件hash值 a
2021-05-11 16:45:41
428
1
原创 使用Haproxy Exporter监控Sparkthrift存活率
1、在haproxy机器上部署haproxy_exporter,haproxy_exporter可到官网下载。 启动脚本如下: [aiops@hadoop hadoop_exporter]$ more start_haproxy_exporter.sh ./haproxy_exporter --haproxy.scrape-uri="http://用户名:密码@localhost:1080/haproxy?stats;csv" & 2、获取各个租户的sts存活率: round(hapr
2021-05-11 16:40:54
581
原创 使用ViewFS实现跨集群&验证纠删码
一、此文章前提条件 1、两套集群都部署HDFS,并且正常使用; 2、两个集群分别采用HA模式; 3、两套集群分别为:68.91(A集群)和68.100(B集群),配置68.91的viewFS访问68.100; 4、存储冷数据的集群若采用纠删码,CDH版本必须6.+。 二、修改HDFS配置 1、修改A集群hdfs-site.xml文件,配置HA。 将B集群的HA配置,拷贝到A集群的hdfs-site.xml中,便于后面使用命名空间访问: hdfs服务端和客户端都添加上如下配置,下面的部分配置可
2021-05-11 16:35:04
679
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人