自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

H.king的博客

hadoop ->spark

  • 博客(13)
  • 收藏
  • 关注

原创 Flume 自定义source -- SQLSource (转为 json 格式)

个人使用flume 相对较多 ,对他的采集任务比较喜欢 ,自己做了一些数据库方向的的拓展。虽然 github 上 有很多 自定义的 flume sql-source 比如 大名鼎鼎 的https://github.com/keedio/flume-ng-sql-source但是 我个人在使用的过程中遇到了一些问题 也一直没有得到解决 ,https://github.c...

2019-02-14 11:40:22 3673 4

原创 MongoDB 中文手册 | MongoDB 中文文档 | 官方手册中文版翻译

最近做了一些 MongoDB 官方文档的汉化工作 。项目放在github 上 ,已经开源 。我相信有很多同学都有汉化文档的经历,但是往往不能坚持到最后,或者因为工作量及时间安排的问题,不能坚持。在这里 可以合作翻译,一起分享知识点,做自己擅长的领域 。稍后将放出连接 欢迎有兴趣的同学 一起参与 。预览链接请点击Mongodb 中文手册...

2020-08-17 14:35:36 3267

原创 flink streamWordCount demo

flink 的 wordCount 流式计算的demopackage com.hbn.wcimport org.apache.flink.api.scala._import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}object StreamWordCount { def main(args: Array[String]): Unit = { val e..

2020-05-14 14:22:16 637

原创 flink wordcount demo

demopackage com.hbn.wcimport org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}import org.apache.flink.api.scala._object WordCount { def main(args: Array[String]): Unit = { //获取执行环境 val env = ExecutionEnvironment.getExecutionE.

2020-05-14 12:15:11 440

原创 flink Cannot find compatible factory for specified execution.target (=local)

初入 flink wordcount 报错如下/Library/Java/JavaVirtualMachines/jdk1.8.0_201.jdk/Contents/Home/bin/java "-javaagent:/Applications/IntelliJ IDEA.app/Contents/lib/idea_rt.jar=56188:/Applications/IntelliJ IDEA.app/Contents/bin" -Dfile.encoding=UTF-8 -clas...

2020-05-14 12:07:48 343

原创 flink 隐式转换的问题

初入 flink 报错如下 Information:2020-05-14 11:18 - Build completed with 2 errors and 0 warnings in 3 s 77 msError:(15, 60) could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation[String] val re...

2020-05-14 11:43:26 1094

原创 Java 操作 Spark 时 却不能设置泛型参数的问题 ?

最近在使用Java开发spark 过程中 遇到一个问题 即不能设置 返回对象的泛型参数代码如下jssc 为 JavaStreamingContext使用 JavaSparkContext 也会遇到这种情况List<Tuple2<String, Boolean>> blacklist = new ArrayList<Tuple2<Str...

2019-09-10 20:23:21 228

原创 Spark sql 中 自定义实体类无法识别其中的 Date 字段

在使用过程中 创建了实体类使用反射的方式将 rdd 转换为 df但是在使用过程中 即使没有在 查询中使用该字段,依然会报错主要提示为 `scala.MatchError: Thu Sep 05 10:16:25 CST 2019 (of class java.util.Date) `具体内容如下19/09/05 10:16:30 ERROR Executor: ...

2019-09-05 10:19:35 786

原创 spark sql 使用过程中 无法识别输入字段

在使用spark sql 过程中 可能映射为实体类但是该实体类的属性 ,并没有设置getter setter 方法 就会出现如下问题提示 : 无法识别某些字段/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Home/bin/java "-javaagent:/Applications/Intelli...

2019-09-05 10:12:52 1025

原创 spark sqlcontext 读取json 文件

多行json 直接 使用 sqlcontext.read().json("path") 读取时候 报错如下 :Exception in thread "main" org.apache.spark.sql.AnalysisException: Since Spark 2.3, the queries from raw JSON/CSV files are disallowed when ...

2019-09-01 15:29:54 2558

原创 Spark 创建RDD (集合,本地文件,hdfs文件)基础数据源

本文主要记录 一些基础 数据源 转换 成为 RDD  的案例  仅供参考 1.集合类转换为RDDimport java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache....

2018-09-12 14:54:20 2387

原创 Spark 启动报错时报错 java.lang.NoSuchMethodError: scala.collection.immutable.HashSet$.empty()Lscala/collect

今天在Spark测试时异常 报错 一直 提示 找不到 该方法因为 本身代码量很小 而且  没有用到 错误提示的类  找了许久 才发现是 版本 对应问题/Library/Java/JavaVirtualMachines/jdk1.8.0_181.jdk/Contents/Home/bin/java "-javaagent:/Applications/IntelliJ IDEA.app/Co...

2018-09-12 14:38:42 1645

原创 启动Hadoop时一直提示输入密码

[root@wh bin]# sh $HADOOP_HOME/sbin/start-all.sh This script is Deprecated. Instead use start-dfs.sh and start-yarn.shStarting namenodes on [wh]root@wh's password: wh: Authentication failed.root...

2018-09-06 16:53:08 13118 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除