Spark
文章平均质量分 72
strongyoung88
记录学习点滴,勇攀技术高峰!
GitBook地址
/<a href="https://www.gitbook.com/@strongyoung">Qiang Yang/</a>
展开
-
Hive和Spark SQL优化
优化步骤问题定位,通过日志和代码分析,定位任务耗时长的原因hive任务,对于hive任务,可以通过日志查看哪个application、以及是哪个阶段耗时较长,另外,可以通过stage编号,结合explain查看执行计划,可以得知耗时较长的application对应的是sql中的哪个操作,便于具体分析原因。如果是map阶段较长,很可能是并发不够,如果是reduce较长,且长时间留停在99...原创 2020-05-05 22:36:29 · 1437 阅读 · 0 评论 -
Spark各种问题集锦[持续更新]
1、Initial job has not accepted any resources16/08/13 17:05:42 INFO TaskSchedulerImpl: Adding task set 0.0 with 2 tasks16/08/13 17:05:57 WARN TaskSchedulerImpl: Initial job has not accepted any re原创 2016-08-13 21:04:15 · 14954 阅读 · 1 评论 -
使用SparkSQL/DataFrame读取HBase表
HBase-Spark Connector手段DataSource是在Spark-1.2.0引入的,在简单的HBase KV存储和复杂的关系型SQL查询之间架起了桥梁,使得用户可以在HBase上使用Spark执行复杂的数据分析工作。HBase Dataframe是一个标准的Spark Dataframe,能够与任何其他的数据源进行交互。翻译 2016-08-13 08:53:50 · 22534 阅读 · 32 评论 -
CentOS7使用本地库(Local Repository)安装Ambari-2.4.1和HDP-2.5.0
前言大多数情况下,我们在linux环境中安装软件都是使用在线安装的方式,比如centOS的 yum,ubuntu的apt-get,但是,有些时候,我们需要安装软件,但并没有网络,或网速并不快,比如公司的集群,很可能是没有外网的,有些库是国外的库,下载速度非常慢,这个时候,如果有个本地库,这个问题就能比较好的解决了 。当然,并不是说所有的软件都做成本地库,这里只是把安装Ambari和HDP的库本地化。原创 2016-11-15 11:15:49 · 37446 阅读 · 1 评论 -
搭建大数据处理集群(Hadoop,Spark,Hbase)
搭建Hadoop集群配置每台机器的 /etc/hosts保证每台机器之间可以互访。 120.94.158.190 master 120.94.158.191 secondMaster1、创建hadoop用户 先创建hadoop组 sudo addgroup hadoop 然后再建一个hadoop用户加入到hadoop组,(前一个为组,后一个为用户)原创 2016-07-18 11:08:14 · 3443 阅读 · 0 评论 -
使用sbt assembly构建Spark项目
sbt-assembly是一个sbt插件,作用类似于Maven,用于创建一个包含依赖的JAR包场景:我在用sbt构建spark项目,但是在用sbt package打包生成jar包时,这个jar包并不没有包含项目的依赖,导致这个jar包提交到spark集群运行时,worker不能找到相应的类,sbt-assembly这个插件可以解决这个问题,可以将项目的依赖一同打包进jar包里。原创 2016-08-21 16:21:17 · 5852 阅读 · 2 评论 -
Spark使用explode展开嵌套的JSON数据
Spark使用explode展开嵌套的JSON数据原创 2016-08-17 08:47:08 · 17269 阅读 · 2 评论 -
Spark对HDFS上json数据的简单操作
Spark对HDFS上json数据的操作非常方便,本文以两种方式进行简单介绍,分别为Spark Shell 和 编写Scala应用程序。原创 2016-07-25 11:05:54 · 11709 阅读 · 3 评论 -
编写Spark程序并提交到集群上运行
使用SCALA IDE, 編写Spark应用程序,提交到Spark集群上运行,最后查看结果原创 2016-07-24 15:08:07 · 5053 阅读 · 0 评论