- 博客(14)
- 资源 (1)
- 收藏
- 关注
转载 MySql按周/月/日分组统计数据的方法
知识关键词:DATE_FORMAT select DATE_FORMAT(create_time,'%Y%u') weeks,count(caseid) count from tc_case group by weeks; select DATE_FORMAT(create_time,'%Y%m%d') days,count(caseid) count from tc_case grou
2017-12-31 21:13:22 1059
转载 Hive 数据倾斜解决方案(调优)
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的...
2017-12-31 14:56:58 190
转载 hive数据倾斜的解决方案
分布式文件系统HDFS可以存储海量的数据(以T为单位的数据量),分布式计算框架MapReduce可以对存储在HDFS的数据进行处理后再将结果写回到HDFS。MapReduce + HDFS可以完成对海量数据的批量处理,但是这套组合会导致很多重复性的工作,有些处理起来比较繁琐,例如从文件中选取特定行数的数据,按照某些字段对数据进行排序,统计某些字段出现的字数,将多个数据源的数据join在一起。Hiv...
2017-12-31 14:56:31 192
转载 用Flume采集多台机器上的多种日志并存储于HDFS
需求:把A、B 机器中的access.log、ugcheader.log、ugctail.log 汇总到C机器上然后统一收集到hdfs中。 IP: A:155 B:156 C:162 但是在hdfs中要求的目录为: /source/access/20160101/** /source/ugcheader/20160101/** /source/ugctail/20160
2017-12-31 13:46:40 1993
转载 SparkSql之DataFrame操作
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成 Spark-SQL可以以其他RDD对象、parquet文件、json
2017-12-22 11:51:51 1736 1
转载 hive-2.3.2配置步骤及问题解答
本人搭建好的hadoop环境为在CentOS7上搭建的hadoop-2.8.2的HA环境1.将apache-hive-2.3.2-bin.tar.gz包拷到服务器上,并使用tar -zxvf apache-hive-2.3.2-bin.tar.gz命令进行解压2.进入解压好的apache-hive-2.3.2-bin目录找到conf目录,将hive-default.xml.temp
2017-12-18 21:39:47 2746
转载 spark中的广播变量broadcast
首先先来看一看broadcast的使用代码:val values = List[Int](1,2,3)val broadcastValues = sparkContext.broadcast(values)rdd.mapPartitions(iter => { broadcastValues.getValue.foreach(println)})
2017-12-18 21:03:54 477
转载 解决spark中遇到的数据倾斜问题
一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。二. 数据倾斜的原因常见于各种shuffle操作,例如reduceByKey,groupByKey,join等操作。数据问题key本身分布不均匀(包括大量的key为空)key的设置不合理spark使用问题shuffle时的并发
2017-12-18 20:57:31 387
转载 Spark累加器(Accumulator)陷阱及解决办法
程序中可能会使用到spark提供的累加器功能,可是如果你不了解它的运行机制,有时候会带来一些负面作用(错误的累加结果)。下文会介绍产生错误结果的原因,并提供一种解决办法。新博客地址Accumulator简介Accumulator是spark提供的累加器,顾名思义,该变量只能够增加。 只有driver能获取到Accumulator的值(使用value方法),T
2017-12-18 20:56:47 283
转载 解决spark中遇到的数据倾斜问题
一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。二. 数据倾斜的原因常见于各种shuffle操作,例如reduceByKey,groupByKey,join等操作。数据问题key本身分布不均匀(包括大量的key为空)key的设置不合理spark使用问题shuffle时的并发
2017-12-18 16:09:58 389
原创 spark中split()特殊符号"." "|" "*" "\" "]"
关于点的问题是用string.split("[.]") 解决。关于竖线的问题用 string.split("\\|")解决。关于星号的问题用 string.split("\\*")解决。关于斜线的问题用 sring.split("\\\\")解决。关于中括号的问题用 sring.split("\\[\\]")解决。
2017-12-16 21:14:44 11842 1
转载 Spark升级到2.0后测试stream-kafka测试报java.lang.NoClassDefFoundError: org/apache/spark/Logging错误
在使用spark读取kafka数据时,当spark升级到2.0之后,出现如上问题:之前遇到了,当时在工程里面添加了org.apache.spark.Logging类,能够运行。但是在后期使用过程中,又遇到了相同的问题,为了一劳永逸,今天彻底把问题解决。开发环境:Idea intelligent14 + spark-2.1.0 + kafka在Idea中安装scala
2017-12-15 22:11:00 2420
翻译 spark实时查看来自各个省份的ip访问
实时查看来自各个省份的ip访问的详情,根据这一需求,通过flume/logstack实时采集nginx的日志到生产到kafka,再通过spark实时消费分析保存到redis/mysql中,最后前端通过百度的echart图实时的显示出来。 首先,得有一份ip归属地的规则表,可以本地的文档,也可以是分布式的在多台机器上的(如hdfs)。 ip规则表部分如下:1.0.1.0|1.0.3.25
2017-12-14 22:02:58 467
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人