2017年12月_a280966503

转载 MySql按周/月/日分组统计数据的方法

知识关键词：DATE_FORMAT select DATE_FORMAT(create_time,'%Y%u') weeks,count(caseid) count from tc_case group by weeks; select DATE_FORMAT(create_time,'%Y%m%d') days,count(caseid) count from tc_case grou

2017-12-31 21:13:22 1059

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的...

2017-12-31 14:56:58 190

转载 hive数据倾斜的解决方案

分布式文件系统HDFS可以存储海量的数据（以T为单位的数据量），分布式计算框架MapReduce可以对存储在HDFS的数据进行处理后再将结果写回到HDFS。MapReduce + HDFS可以完成对海量数据的批量处理，但是这套组合会导致很多重复性的工作，有些处理起来比较繁琐，例如从文件中选取特定行数的数据，按照某些字段对数据进行排序，统计某些字段出现的字数，将多个数据源的数据join在一起。Hiv...

2017-12-31 14:56:31 192

转载用Flume采集多台机器上的多种日志并存储于HDFS

需求：把A、B 机器中的access.log、ugcheader.log、ugctail.log 汇总到C机器上然后统一收集到hdfs中。 IP: A:155 B:156 C：162 但是在hdfs中要求的目录为： /source/access/20160101/** /source/ugcheader/20160101/** /source/ugctail/20160

2017-12-31 13:46:40 1993

转载 SparkSql之DataFrame操作

Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。　　本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成　　Spark-SQL可以以其他RDD对象、parquet文件、json

2017-12-22 11:51:51 1736 1

转载 hive-2.3.2配置步骤及问题解答

本人搭建好的hadoop环境为在CentOS7上搭建的hadoop-2.8.2的HA环境1.将apache-hive-2.3.2-bin.tar.gz包拷到服务器上，并使用tar -zxvf apache-hive-2.3.2-bin.tar.gz命令进行解压2.进入解压好的apache-hive-2.3.2-bin目录找到conf目录，将hive-default.xml.temp

2017-12-18 21:39:47 2746

转载 spark中的广播变量broadcast

首先先来看一看broadcast的使用代码:val values = List[Int](1,2,3)val broadcastValues = sparkContext.broadcast(values)rdd.mapPartitions(iter => { broadcastValues.getValue.foreach(println)})

2017-12-18 21:03:54 477

转载解决spark中遇到的数据倾斜问题

一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长，或者等待很长时间后提示你内存不足，执行失败。二. 数据倾斜的原因常见于各种shuffle操作，例如reduceByKey,groupByKey,join等操作。数据问题key本身分布不均匀(包括大量的key为空)key的设置不合理spark使用问题shuffle时的并发

2017-12-18 20:57:31 387

转载 Spark累加器(Accumulator)陷阱及解决办法

程序中可能会使用到spark提供的累加器功能，可是如果你不了解它的运行机制，有时候会带来一些负面作用（错误的累加结果）。下文会介绍产生错误结果的原因，并提供一种解决办法。新博客地址Accumulator简介Accumulator是spark提供的累加器，顾名思义，该变量只能够增加。只有driver能获取到Accumulator的值（使用value方法），T

2017-12-18 20:56:47 283

转载解决spark中遇到的数据倾斜问题

一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长，或者等待很长时间后提示你内存不足，执行失败。二. 数据倾斜的原因常见于各种shuffle操作，例如reduceByKey,groupByKey,join等操作。数据问题key本身分布不均匀(包括大量的key为空)key的设置不合理spark使用问题shuffle时的并发

2017-12-18 16:09:58 389

原创 spark rdd说明

调用SparkContext 的 parallelize()，将一个存在的集合，变成一个RDD

2017-12-17 18:27:21 107

原创 spark中split()特殊符号"." "|" "*" "\" "]"

关于点的问题是用string.split("[.]") 解决。关于竖线的问题用 string.split("\\|")解决。关于星号的问题用 string.split("\\*")解决。关于斜线的问题用 sring.split("\\\\")解决。关于中括号的问题用 sring.split("\\[\\]")解决。

2017-12-16 21:14:44 11842 1

转载 Spark升级到2.0后测试stream-kafka测试报java.lang.NoClassDefFoundError: org/apache/spark/Logging错误

在使用spark读取kafka数据时，当spark升级到2.0之后，出现如上问题：之前遇到了，当时在工程里面添加了org.apache.spark.Logging类，能够运行。但是在后期使用过程中，又遇到了相同的问题，为了一劳永逸，今天彻底把问题解决。开发环境：Idea intelligent14 + spark-2.1.0 + kafka在Idea中安装scala

2017-12-15 22:11:00 2420

翻译 spark实时查看来自各个省份的ip访问

实时查看来自各个省份的ip访问的详情，根据这一需求，通过flume/logstack实时采集nginx的日志到生产到kafka，再通过spark实时消费分析保存到redis/mysql中，最后前端通过百度的echart图实时的显示出来。首先，得有一份ip归属地的规则表，可以本地的文档，也可以是分布式的在多台机器上的（如hdfs）。 ip规则表部分如下：1.0.1.0|1.0.3.25

2017-12-14 22:02:58 467

a280966503的博客

转载 MySql按周/月/日分组统计数据的方法

转载 Hive 数据倾斜解决方案（调优）

转载 hive数据倾斜的解决方案

转载用Flume采集多台机器上的多种日志并存储于HDFS

转载 SparkSql之DataFrame操作

转载 hive-2.3.2配置步骤及问题解答

转载 spark中的广播变量broadcast

转载解决spark中遇到的数据倾斜问题

转载 Spark累加器(Accumulator)陷阱及解决办法

转载解决spark中遇到的数据倾斜问题

原创 spark rdd说明

原创 spark中split()特殊符号"." "|" "*" "\" "]"

转载 Spark升级到2.0后测试stream-kafka测试报java.lang.NoClassDefFoundError: org/apache/spark/Logging错误

翻译 spark实时查看来自各个省份的ip访问

apache-tomcat-7.0.22-windows-x86.zip

空空如也