- 博客(46)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注
原创 Flink WaterMark移动以及迟到数据分析
## Flink WaterMark移动以及迟到数据分析### Demo代码**将以此代码进行实验分析,不想看代码直接看下面章节即可**```import com.fun.{UserAgg, UserProcessFunction, UserWindowFun}import com.protocol.{UserBehavior, UserViewCount}import com.tools.TimeGetimport org.apache.flink.streaming.api.Time
2020-07-14 16:11:37 1089
原创 【大数据基础-数据仓库-04】常用窗口函数考察
浅谈hive常用窗口函数目录浅谈hive常用窗口函数简介常用窗口函数overSUM,AVG,MIN,MAX简介窗口函数又名开窗函数,属于分析函数的一种,用于解决复杂报表统计需求的功能强大的函数。窗口函数用来计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而聚合函数对于每个组只返回一行。开窗函数指定了分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化。常用窗口函数overover() 通常与聚合函数共同使用,比如 coun
2020-05-09 15:43:30 630
原创 【大数据基础-数据仓库-01】数据分析-拉链表hive拉链表与拉链表简单实现
hive拉链表拉链表优缺点节省空间,尤其是数据量很大的时候;对于订单事务性的数据,查看历史操作记录非常方便,比如说需要查看某一个时间点或者时间段的历史快照信息,查看某一个订单在历史某一个时间点的状态,查看某一个用户在过去某一段时间内,更新过几次等等不过仅适合基于历史数据更新频率比较低的场景,如果每天1000w订单,每天更新1000次以上Demo尝试与实现做一个订单分析的拉链表准备订单事务表CREATE TABLE `orders`( `orderid` int,
2020-05-08 21:15:24 802 1
原创 java.lang.IllegalStateException: Promise already completed.
然后看左下角记录的支持的python的版本列表,如图所以是查询的pyspark3.1.2的所支持的python列表。spark submit 提交作业的时候提示Promise already complete。这种情况是python版本和pyspark版本不一致的情况导致的。说一下查询pyspark兼容python版本查询的方法。
2024-02-22 16:19:32 664 1
原创 sparksql Exception thrown in awaitResult
Caused by: java.sql.SQLException: org.apache.spark.SparkException: Exception thrown in awaitResult: at org.apache.hive.jdbc.HiveStatement.execute(HiveStatement.java:279) at com.lenovo.lps.farseer.priest2.ext.SparkExecDao.executeOneSql(SparkExecDao.java.
2021-01-21 13:55:52 6382 1
原创 【大数据基础-数据仓库-05】HIVE基础知识考查
HIVE的架构图HIVE提交SQL之后的执行过程通过客户端提交查询dirver接收到查询,会创建session handle,并将该查询传递给编译器,生成逻辑执行计划编译器会向metastore发送获取元数据的请求metastore向编译器发送元数据,编译器使用元数据执行类型检查和语义分析。编译器会生成执行计划(DAG),对于MapReduce作业而言,执行计划包括map operator trees和reduce operator tree编译器向Driver发送生成的物理执行
2020-08-13 17:04:26 331
原创 【大数据基础-数据仓库-03】常用hivesql udf考察
目录explodelateral view explod说明,关于内置的hive的udf函数使用,建议直接参考hive 官方wiki https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-explode(array)explodeexplode() takes in an array (or a map) as an input and outputs the eleme
2020-08-11 10:35:11 222
原创 【大数据基础-数据仓库-02】HIVE/SPARK SQL优化
JOIN优化--代码片段1select a.s_no from student_orc_partition ainner join student_orc_partition_only bon a.s_no=b.s_no and a.part=b.part and a.part>=1 and a.part<=2--代码片段2select a.s_no from student_orc_partition ainner join student_orc_partition
2020-08-10 17:47:24 181
原创 【大数据基础hadoop-02】MapReduce相关基础汇总
当我们提交一个mr任务会启用多少个map呢,这个map的数量如何控制呢,如何调整map的数量在调优时我们不希望生成太多的Map,而把计算任务的等待时间都耗费在Map的启动上;或者不希望生成太多的Map对某个文件进行操作,以免引起资源的争用。这时候就需要对Map进行控制。在Hive中配置“set mapred.map.tasks=task数量”无法控制Map的任务数,调节Map任务数需要一套算法,该算法也和InputFormat有密切的关系,具体如下:在默认情况下Map的个数defaultNum=目标
2020-08-07 17:21:01 351
原创 【大数据基础-Hadoop-1】详细分析hdfs读写流程阐述hadoop读写流程
目录读流程写流程在大数据面试过程中hadoop的namenode读写流程是经常会问到的问题读流程访问namenode,告知要访问的文件hdfs对client做身份信息验证,认证的方式有两种,一种是通过信任的客户端,由其指定用户名;第二种是通过诸如kerboers的强认证机制检查文件的所有者以及其设定的访问权限,如果文件存在,且该用户对其有访问权限此时namenode 会告诉hdfs客户端这个文件的第一个数据块的标识以及保存该数据块的datanode列表,此列表根据client
2020-08-07 16:40:34 279
原创 【大数据基础-java基础-1】java集合基础知识点java集合比较
目录概览ListArrayListVectorLinkedListSETHashSetTreeSetMAPHashMapConcurrentHashMap概览Java的集合类被定义在Java.util包中,主要有 4种集合,分别为List、Queue、Set和Map,每种集合的具体分类如图List有序的collection,主要有三个实现类分别为ArrayList,Vector,LinkedListArrayList基于数组实现,.
2020-08-07 16:10:01 294
原创 基于scala语言实现Flink热门商品数据实时分析
相关代码和逻辑请参考https://github.com/upperbl/FlinkDemo
2020-07-08 14:52:30 840 2
原创 Idea本地运行FLINK调试
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logger implementationSLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.Idea运行FLINK无法正常输出日志提示以上错误需引入slf4j相关依赖 .
2020-05-31 21:11:12 4768 1
原创 HIVE多角度优化总结
说明hivesql应该越简单约好,sql优化一定要先确定瓶颈,瓶颈确定了才能针对性的去进行优化,否则就是自寻烦恼关于union的优化一般来说stage越多,意味着中间会有更多的中间数据落地磁盘,增大网络IO磁盘IO,建议熟练使用HIVE新版本支持的groupsetting函数去替换调整数据存储块大小数据块较大且集中,意味着会增大网络传输压力,数据块较小较多,会增大namenode读写的压力,join的时候可能会消耗大量的cpu/memory资源HIVE分区分桶适时使用HIVE分.
2020-05-20 17:15:01 306
原创 Hivesql优化&sparksql优化梳理
Hive sql 优化方案梳理总结说明此篇文章我们将对Hivesql的优化方案进行梳理和总结,欢迎大家一起讨论,可以补充和完善的地方欢迎各位大牛积极在评论区提出,大家一起共同学习共同成长...
2020-05-11 18:14:27 1210
原创 关于Join的时候where在on之前和之后的效率测试
看到很多网友在说join的时候,where一定要在on的条件之前,这样可以起到优化左右,比如有同学这样说(如下截图),其实不然,对此我做了实验为验证此结论我选择了一个大表进行数据验证,进行了sparksql查询sql1是这样的,where在on前面select t1.c0, t1.c1, t1.c2 , t1.c3, t1.c4, t1.c5, t1.c6, t1.c7 , t1.c8, t1.c9 , t1.c10, t1.c11, t1.c12, t1.c13
2020-05-10 21:53:32 3756
原创 hive3.x异常- return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask
提交joinsql核心异常如下return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTaskThe value of property yarn.resourcemanager.zk-address must not be nullorg.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Executio
2020-05-09 10:40:48 1857
原创 get_json_object不能解析json里面中文的key
get_json_object不能解析json里面中文的key一般来说不会把json中的key定义为中文,但是如果是中文的话可以用 hive 的json_tuplejson_tupleA new json_tuple() UDTF is introduced in Hive 0.7. It takes a set of names (keys) and a JSON string,...
2019-06-25 21:59:19 5191
原创 Reducer preempted to make room for pending map attempts Container killed by the ApplicationMaster
hive mr任务Reducer preempted to make room for pending map attempts Container killed by the ApplicationMaster. Container killed on request. Exit code is 143 Container exited with a non-zero exit code 1...
2019-05-07 15:09:05 3121
原创 养鱼知识交流
^?_?^………鱼前需要准备什么:1、拍下请把养鱼的水要准备好哟,刚接的自来水是不能立即养鱼的,因为自来水有氯气,要用提前静置两三天或者暴晒两天的水(这样可以去除水里的氯气),河沟里清澈的水是最好的。2、准备好增氧的,鱼儿有氧气过得舒服一些,而且鱼儿在晚上和早晨容易缺氧,所以最好准备好增氧设备。如果鱼缸没有增氧的就少养点鱼!3、请不要用很小的鱼缸养过多的鱼,密度尽量稀一点!...
2019-04-26 10:15:27 1095
原创 storm和hadoop角色对比
1.hadoop运行mapreduce作业,storm运行topology作业2.MapReduce作业最终会结束,而topology是不会结束的,除非手动杀掉3.hadoop的jobTracker对应storm的nimbus, hadoop的taskTracker对应storm的supervisor hadoop的child对应strom的worker hadoo...
2019-04-23 17:43:34 316
原创 strom配置参数简单分析
Woker storm的一个拓扑任务可能有一个或多个woker,一个worker代表一个线程,但是一个拓扑任务中woker的最大数据量是有限制的,max( number of worker)=number of supervisor X ports of slots。 例如如果你有四个 supervisor,设置 slots的端口为 6700,6701,6702,6703 则...
2019-04-23 17:16:31 302
原创 轻松部署ambari2.7
一 Ambari说明Ambari为您的集群提供了端到端管理和监视解决方案。使用Ambari Web UI和REST api,您可以部署、操作、管理集群配置,并监视集群中所有节点的服务。二 安装前环境确认a 操作系统 选用centos7.5b 数据库使用postgresqlc jdk使用jdk7+jdk8d 浏览器 Chrome/Firefox其他版本对应关系请参考htt...
2018-08-25 16:54:20 5328 3
原创 hive udtf 输入一列返回多行多列
之前说到了hive udf,见https://blog.csdn.net/liu82327114/article/details/80670415UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。继承org.apache.hadoop.hive.ql.udf.generic.Gene...
2018-06-13 20:40:11 7018
原创 hiveudf分割ASCII的STX、ETX(^B、^C)
ETX、STXSTX (start of text),正文开始 ,ETX (end of text),正文结束STX与ETX只是为了便于描述。其实STX用来描述16进制中的02这个字节,而ETX则是03vim编辑器打开的话显示^B、^C一次采集上来的数据就是这种格式,为拆成kv的形式做了如下处理现将此文件上传到hdfs,并建立对应的表第一种方案:使用hivesql、sparksql内置的函数里的s...
2018-06-13 12:14:37 4833
原创 udf开发入门(python udf、hive udf)
开发前的声明 udf开发是在数据分析的时候如果内置的函数解析不了的情况下去做的开发,比方说你只想拆分一个字段,拼接一个字段之类的,就不要去搞udf了,这种基本的需求自带函数完全支持,具体参数可参考文档:http://spark.apache.org/docs/latest/api/sql/search.html?q=cast 里面列举了所有函...
2018-06-12 20:46:05 36707
原创 02-sparksql Malformed ORC file、Invalid postscript.
异常重要log:Caused by: java.sql.SQLException: org.apache.spark.SparkException: Job aborted due to stage failure: Task 33 in stage 520.0 failed 4 times, most recent failure: Lost task 33.3 in stage 520.0 (...
2018-05-07 20:30:29 1057
原创 01-集群空间被沾满导致sparksql执行失败异常
异常log:Caused by: java.sql.SQLException: org.apache.spark.SparkException: Job aborted due to stage failure: Task 799 in stage 9537.0 failed 4 times, most recent failure: Lost task 799.3 in stage 9537.0...
2018-05-07 20:29:39 572
原创 yarn、spark配置优化
在内存和磁盘很大的集群上装好ambari之后对yarn和spark相关的配置做如下优化修改yarn:每个节点可申请的内存应该配置到节点总内存的百分之八十左右。 每个节点可申请的cpu核数需要配置到机器cpu核数的最大如果连接hiveserver2、spark thrift server的数量很大需要调大 spark: spark并行执行
2017-11-29 17:24:51 489
原创 关于服务进程申请线程数量的限制unable to create new native thread
在跑某个web服务的时候出现了以下异常unable to create new native thread运行此服务的用户能申请的最大的线程数量是1024修改配置文件vi /etc/security/limits.d/90-nproc.conf 改完即可生效
2017-11-28 14:59:29 13514
原创 linux cat 文件乱码
test.log是utf-16的编码cat test.log会报错但是我们可以cat的时候指定编码格式iconv -f 文件编码 -t 终端编码 input.logiconv -f utf-16 -t utf-8 test.log
2017-11-27 20:36:28 10365
原创 HDFS删除文件之后空间不释放,LINUX删除文件之后空间不释放
删除文件之后空间不释放在我这遇到的情况主要有两种:1.hdfs删除文件之后空间不释放针对此种情况主要是hdfs的回收站功能,为了防止文件误删除,删除的文件会先放到回收站里。删除的时候也可以直接彻底删除,只需 hdfsdfs -rm -r -skipTrash即可 也可以禁用hdfs的回收站功能,hdfs回收站的功能控制是zaicore-site.xml文件中 ...
2017-11-27 15:30:26 8584
原创 ambari journalnode异常Can't scan a pre-transactional edit log
2017-11-22 11:08:30,510 WARN namenode.FSImage (EditLogFileInputStream.java:scanEditLog(364)) - After resync, position is 10444802017-11-22 11:08:30,510 WARN namenode.FSImage (EditLogFileInputStrea
2017-11-22 11:25:20 1193
原创 ambari在移动namenode的时候出现两个备用的namnode
ambari在移动namenode的时候出现两个备用的namnode异常如下: 2017-11-17 15:38:55,621 INFO zookeeper.ClientCnxn (ClientCnxn.java:run(512)) - EventThread shut down2017-11-17 15:38:55,621 INFO ha.ActiveStandbyElector
2017-11-17 15:42:20 1913 2
原创 linux同时安装python2.6和python2.7
linux已经部署一个python2.6,现有一需求再部署一个python2.7,操作梳理如下下载python2,7wget http://www.python.org/ftp/python/2.7.13/Python-2.7.13.tar.xzxz -d Python-2.7.13.tar.xztar -xvf Python-2.7.13.tarcd Python-2.7.1
2017-11-16 15:30:47 3844
原创 java调python报错console: Failed to install '': java.nio.charset.UnsupportedCharsetException: cp0.
java调用python出现如图错误,原因在于jpython.jar版本有问题,选的那一版本有bug,换个版本即可console: Failed to install '': java.nio.charset.UnsupportedCharsetException: cp0.
2017-09-25 10:46:10 2279 1
原创 ambari中spark thrift server 挂掉
17/08/24 01:14:21 ERROR LiveListenerBus: Listener EventLoggingListener threw an exceptionjava.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes
2017-08-24 09:11:08 1515
原创 linux grep用法小白梳理(2)
linux grep用法小白梳理1.打印模式匹配所位于的字符或字节偏移: echo gnu is not unix | grep -b -o “not” 7:not #一行中字符串的字符偏移是从该行的第一个字,符开始计算,起始值是0。在上面的例子中,”not”的偏移值是7(也就是说,not是从该行的第7个字符开始的,即“gnu is not unix”这一行)。 选项-b总是和-o配合使用。
2017-04-09 20:36:34 580
原创 linux grep用法小白梳理(1)
grep 用法梳理grep命令是linux中用于文本搜索的神奇工具,现梳理如下1.搜索包含指定字符的文本行grep example filename #会输出所有包含example字符的文本行或者grep "example" filename #会输出所有包含example字符的文本行2.也可以从 stdin中读取echo -e "this is a word\n
2017-04-09 18:03:04 487
springmvc初学指南
2017-09-27
Spark快速大数据分析
2017-09-25
jython-2.7-b1.jar
2017-09-25
python基础教程第二版
2017-09-05
hive编程指南含目录版本
2017-09-05
hbase中regionserver开启之后自动关闭,求各位大神帮忙看看谢谢了。
2016-10-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人