「已注销」-CSDN博客

原创 Spark从HDFS读取数据并转存MySQL

Spark从HDFS读入数据，简单处理并存入MySQLimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/** * Created by admin_ on 27/03/2018. * 1. 创建sparkSession * 2. 获取sparkContext * 3. 读取HDFS数据文件 * 4....

2018-03-28 09:44:21 4493

原创 Spark thriftserver和beeline的简单使用

1.设置元数据库如果不设置，则使用$SPARK_HOME/metastore_db/，是只支持单用户的derby创建$SPARK_HOME/conf/hive-site.xml<configuration><property> <name>javax.jdo.option.ConnectionURL</name> <value&gt...

2018-03-20 17:54:01 2629

原创 SparkSQLExample.scala官方范例学习

$ bin/spark-shell --master local[4]scala> spark.baseRelationToDataFrame conf emptyDataFrame implicits range sparkContext stop time catalog ...

2018-03-19 16:40:13 1774 1

（很多东西总是遗忘……总结一下吧）1. local[*]模式下，spark://xxxx:7077页面看不到app状态2. cluster模式下的spark-shell，rdd.foreach(println)的输出是在app的log里面（很傻的一条总结……）3. spark-shell，cluster模式下，想在driver端看输出要用collect()，但可能会导致driver outofme...

2018-03-18 15:27:22 387

原创 spark.yarn.archive spark.yarn.jars 的设置

为什么要设置呢？摘自Spark-2.3.0官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html#preparations（个人理解：spark运行所需的jar包，不设置的话每次运行就需要上传到yarn管理的各个节点的缓存，很麻烦很影响性能。如果设置了，比如说放在HDFS上，就不需要每次都上传而是从HDFS上读取，能快那么一点点…...

2018-03-16 10:59:08 7212

原创 Spark-2.1.2 Hadoop-2.7.5 spark-submit yarn client cluster两种模式提交

（这个博客主要是留给很菜的自己看的）节点在云上，因为内外网IP和权限问题折腾了一段时间环境：spark:2.1.2hadoop:2.7.5java:1.8IDE:idea 各种弯路：--在IDEA上运行没有成功，spark standalone 模式下始终提示申请不到资源（待解决）每个节点8个core，32G memory，各取1个core，1024M memory，依然提示：WARN TaskS...

2018-03-15 20:22:17 3158

原创 HelloWorld

这是一篇测试用文章public class HelloWorld{public static void main(String[] args){System.out.println("Hello world!");}}

2017-05-10 17:41:32 182

转载 hibernate jpa 注解 @Temporal(TemporalType.DATE) 日期注解

1) DATE ：等于java.sql.Date2) TIME ：等于java.sql.Time 3) TIMESTAMP ：等于java.sql.Timestamp 1.日期：@Temporal(TemporalType.DATE) @Column(name = "applyDate", nullable = false, length = 10) pub

2014-10-31 19:58:00 211

naruto00001的专栏