大数据-hadoop
码者人生
在高并发、高可用、大数据架构、智能运维等技术和管理领域有14年工作经验,长期关注企业信息安全、企业信息化、互联网电商等业务发展方向
展开
-
elasticsearch-spark部分参数理解
es.nodes.wan.only: falsees.nodes.discovery: trueSpark会通过访问es.nodes中指定的host(可以为多个) 得到ES集群所有开启HTTP服务节点的ip和port,后续对数据的访问会直接访问分片数据所在的节点上(需要保证ES集群所有节点都能够被Spark集群访问到)es.nodes.wan.only: truees.nodes.discovery: false或不设置Spark发送给ES的所有请求都需要通过这个节点进行转发,效率相对比较低原创 2020-10-13 21:09:54 · 2258 阅读 · 0 评论 -
如何将Hive中map类型的字段转换成json格式的字符串
由于没有原生支持,肯定要写UDF直接上代码import com.alibaba.fastjson.JSON;import org.apache.spark.sql.api.java.UDF2;import scala.collection.Seq;import java.util.HashMap;import java.util.Map;public class ToJsonUdf implements UDF2<Seq<String>, Seq<Strin原创 2020-05-29 17:46:54 · 5576 阅读 · 0 评论 -
spark submit脚本中向main方法传递参数,如果参数中包含空格该如何处理
spark是一个非常好用的大数据分布式计算框架。套话不多说,直接进入正题。spark的开发和测试中经常会使用spark submit脚本将编写好的spark应用(比如java和scala编写并打包好的jar包)提交给spark集群进行处理。为了方便调试,经常需要向main方法传递参数,但是目前很多博文介绍的大多都是关于spark-submit参数调优方面的。那么如何在spark submit脚本中...原创 2020-03-24 09:09:56 · 1790 阅读 · 0 评论 -
Spark submit 找不到配置文件的异常信息 java.lang.NullPointerException
Spark submit 找不到配置文件的异常信息java.lang.NullPointerException at java.util.Properties$LineReader.readLine(Properties.java:434) at java.util.Properties.load0(Properties.java:353) at java.util.Propertie...原创 2020-03-23 09:49:35 · 840 阅读 · 0 评论 -
Spark写入 ES 异常 Use 'org.elasticsearch.spark.sql' package instead
Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 1 times, most recent failure: Lost task 0.0 in stage 1.0 (TID 1, localhost, exe...原创 2020-03-21 21:41:02 · 741 阅读 · 0 评论 -
java-spark 合并两个row的column
List<Row> tmpList = new ArrayList<Row>() { { add(row1); add(row2); }};Seq<Row> tmpSeq =JavaConverters.asScalaIteratorConverter(tmpList.iterator()).asScala(...原创 2020-03-20 16:36:33 · 1841 阅读 · 0 评论 -
hadoop hive 操作整理
===================================================hive 操作1.创建表alter table test_tab_lyf (uid int ,uname string);2.添加列alter table test_tab_lyf ADD COLUMNS (col1 int,col2 int);3.添加一列原创 2014-09-10 20:59:36 · 656 阅读 · 0 评论 -
hive 多列处理的不支持
hive中不支持select a,b,transform(c) using ... as c ... from tab ..这种格式,即只能select transform(c) using... 。如果想同时显示a,b,c三列的话要如何处理?原创 2014-10-27 21:51:14 · 1540 阅读 · 0 评论 -
hive sql 开发过程碰到的问题
1.distribute by 经常和 sort by 配合使用原创 2014-10-29 15:02:32 · 3378 阅读 · 0 评论