![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
pumbaa51203889
这个作者很懒,什么都没留下…
展开
-
spark jar包和log4j jar包冲突
spark jar包spark-assembly-1.6.1-hadoop2.6.0.jar中已经包含了log4j的jar包,所以当项目中包含spark-assembly-1.6.1-hadoop2.6.0.jar就无需再引用log4j.jar。但是如果需要用log4j.jar的功能,那么需要把log4j.jar放到项目的lib目录中例如在jetty中,引用第三方的jar可以放到lib/...原创 2016-06-02 15:25:29 · 704 阅读 · 0 评论 -
sparksql和mysql性能比较
以下是在各个数据量级针对同个查询语句的消耗时间select type,count(*) as count from test group by type order by count desc; mysql 600W 3ssparksql 550W 5s mysql 1000W 5.4ssparksql 1100W 6.3s mysql 1900W 9.9s...原创 2016-06-16 09:58:23 · 2781 阅读 · 0 评论 -
spark内存溢出
spark执行任务时出现java.lang.OutOfMemoryError: GC overhead limit exceeded和java.lang.OutOfMemoryError: java heap space最直接的解决方式就是在spark-env.sh中将下面两个参数调节的尽量大 export SPARK_EXECUTOR_MEMORY=2g export SP...原创 2016-07-08 18:56:12 · 461 阅读 · 0 评论 -
HDFS+Spark(Hive On Spark)+Flume/Shell架构进行大数据分析
前言公司需要对数据进行运营分析,为了满足运营大数据分析的需求,决定采用hadoop进行数据分析查询经过研究打算采用如下架构游戏服通过http方式把日志消息写入到BI服务器,BI服务器通过log4j记录日志信息。然后把日志文件导入HDFS中,通过Spark进行数据的统计查询。这里把日志文件导入HDFS中有两种方法:1、flume定时把日志文件拷贝到flume监控的目录下,...原创 2016-12-23 17:25:43 · 467 阅读 · 0 评论