spark
空着这扇窗
朝着梦想努力
展开
-
spark常见问题
如果Driver写好了代码,eclipse或者程序上传后,没有开始处理数据,或者快速结束任务,也没有在控制台中打印错误,那么请进入spark的web页面,查看一下你的任务,找到每个分区日志的stderr,查看是否有错误,一般情况下一旦驱动提交了,报错的情况只能在任务日志里面查看是否有错误情况了原创 2017-05-25 14:18:03 · 1782 阅读 · 0 评论 -
kafka->spark->streaming->mysql(scala)实时数据处理示例
开发环境windows7 64、intellij idea 14.1.5、Spark-1.5.2、Scala 2.0.4、java1.7、maven3.05将spark中的assembly包引入即可使用local模式运行相关的scala任务,注意不要使用scala2.11,非要使用的话先用这个版本的scala编译一遍spark哈代码部分pom文件先附上pom转载 2017-06-09 10:53:38 · 867 阅读 · 0 评论 -
使用Flume+Kafka+SparkStreaming进行实时日志分析
每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码1. 整体架构思考一下,正常情况下我们会如何收集并分析日志呢?首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,转载 2017-06-23 13:48:57 · 1204 阅读 · 0 评论