大数据
一个在成长的程序猿
这个作者很懒,什么都没留下…
展开
-
Spark——自定义UDAF函数
弱类型用户自定义UDAF函数继承UserDefinedAggregateFunction类import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types.{DataType, D原创 2020-07-04 12:04:15 · 724 阅读 · 0 评论 -
Spark——自定义累加器accumulator
自定义累加器1.继承AccumulateV22.重写isZero() 当前累加器是否为初始化状态copy() 复制累加器对象reset() 置空累加器add() 向累加器中增加数据merge() 合并累加器value() 获取累加器中的结果import java.utilimport org.apache.spark.rdd.RDDimport org.apache.spark.util.{AccumulatorV2, LongAccumulator}import org.apac原创 2020-07-04 08:48:12 · 378 阅读 · 0 评论 -
大数据笔记之Flume——Source
Source提供了两种机制:PollableSource(轮询拉取)和EventDrivenSource(事件驱动)Source继承的关系图在图我们可以看到NetcatSource,ExecSource和HttpSource属于事件驱动模型。KafkaSource,SequenceGeneratorSource和JmsSource属于轮询拉取模型。PollableSource实现的代码实例public class MySource extends AbstractSource implement原创 2020-06-20 11:32:10 · 270 阅读 · 0 评论 -
HDFS写入的问题
今天在使用Flink自定义Sink往HDFS中写入数据时,程序运行失败并报下面的错,主要是因为没有权限写入HDFSorg.apache.hadoop.security.AccessControlException: Permission denied: user=Administrator, access=WRITE, inode="/flink/MySink001/2020-05-24--17解决方法:在 hdfs-site.xml配置文件中添加下面参数然后重启hadoop就好了:<pro原创 2020-05-24 17:58:27 · 439 阅读 · 0 评论 -
Flink遇见错误的笔记
flink在提价任务时遇见的错误The server responded with: org.apache.flink.runtime.client.JobSubmissionException: Failed to submit job.原因:把linux输入文件的路径写错了原创 2020-05-19 16:30:17 · 303 阅读 · 0 评论 -
Azkaban调度器常见问题
Azkaban今天在安装完azkaban,登录web页面的时候遇到的问题javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection? at sun.security.ssl.InputRecord.handleUnknownRecord(InputRecord.java:710) at sun.security.ssl.InputRecord.read(InputRecord.java:527) at sun原创 2020-05-11 11:10:50 · 547 阅读 · 0 评论 -
Hive -e,-f
Hive -e和-f的用法:**hive -e 后面 + sql语句 hive -f 后面 + 文件 hive -f 的某个文件的扩展名可以是.txt .sql .log .hql**原创 2020-05-10 14:34:59 · 241 阅读 · 0 评论 -
Hive笔记——union与union all的区别
Union与Union all区别1)准备两张表tableA tableBid name score id name score1 a 80 1 d 482 b 79 2 e 233 c 68 3 c 862)采用union查询select name from ta原创 2020-05-09 14:06:23 · 462 阅读 · 0 评论 -
Hive笔记——concat_ws,concat,group_concat函数
concat_ws()函数作用:用来指定参数之间的分隔符语法:concat_ws(分隔符,str1,str2,…)例如:select concat_ws('_', id, name) as con_ws from info limit 1;concat()函数作用:用来将多个字符串拼成一个字符串语法:concat(str1,str2,…)例如:select concat(id, ',', name) as con from info limit 1;group_concat()函数作用:用原创 2020-05-09 10:05:23 · 876 阅读 · 0 评论 -
Hive笔记——collect_list,collect_set
这两个函数都是将分组数据的某列变成一个数组,不同的是collect_list是不去重,collect_set是去重collect_set函数1)创建原数据表drop table if exists stud;create table stud (name string, area string, course string, score int);2)向原数据表中插入数据insert into table stud values('zhang3','bj','math',88);insert原创 2020-05-09 09:50:26 · 290 阅读 · 0 评论 -
为什么不能一直格式化NameNode,格式化NameNode,要注意什么?
注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。所以,格式NameNode时,一定要先删除data数据和log日志,然后再格式化NameNode。...原创 2020-05-08 10:00:29 · 543 阅读 · 0 评论 -
运行Tez时检查到用过多内存而被NodeManager杀死进程问题
Caused by: org.apache.tez.dag.api.SessionNotRunning: TezSession has already shutdown. Application application_1546781144082_0005 failed 2 times due to AM Container for appattempt_1546781144082_0005_00...原创 2020-05-08 09:43:32 · 309 阅读 · 0 评论 -
tez-site.xml:2:6: The processing instruction target matching "[xX][mM][lL]"
tez-site.xml:2:6: The processing instruction target matching "[xX][mM][lL]"因为在hive\conf\tez-site.xml的配置文件中第一行有空格所以会报错。已解决。原创 2020-05-08 09:40:23 · 367 阅读 · 0 评论