- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 Spark从HDFS读取数据并转存MySQL
Spark从HDFS读入数据,简单处理并存入MySQLimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}/** * Created by admin_ on 27/03/2018. * 1. 创建sparkSession * 2. 获取sparkContext * 3. 读取HDFS数据文件 * 4....
2018-03-28 09:44:21 4493
原创 Spark thriftserver和beeline的简单使用
1.设置元数据库如果不设置,则使用$SPARK_HOME/metastore_db/,是只支持单用户的derby创建$SPARK_HOME/conf/hive-site.xml<configuration><property> <name>javax.jdo.option.ConnectionURL</name> <value>...
2018-03-20 17:54:01 2629
原创 SparkSQLExample.scala官方范例学习
$ bin/spark-shell --master local[4]scala> spark.baseRelationToDataFrame conf emptyDataFrame implicits range sparkContext stop time catalog ...
2018-03-19 16:40:13 1774 1
原创 RDD个人学习总结
(很多东西总是遗忘……总结一下吧)1. local[*]模式下,spark://xxxx:7077页面看不到app状态2. cluster模式下的spark-shell,rdd.foreach(println)的输出是在app的log里面(很傻的一条总结……)3. spark-shell,cluster模式下,想在driver端看输出要用collect(),但可能会导致driver outofme...
2018-03-18 15:27:22 387
原创 spark.yarn.archive spark.yarn.jars 的设置
为什么要设置呢?摘自Spark-2.3.0官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html#preparations(个人理解:spark运行所需的jar包,不设置的话每次运行就需要上传到yarn管理的各个节点的缓存,很麻烦很影响性能。如果设置了,比如说放在HDFS上,就不需要每次都上传而是从HDFS上读取,能快那么一点点…...
2018-03-16 10:59:08 7212
原创 Spark-2.1.2 Hadoop-2.7.5 spark-submit yarn client cluster两种模式提交
(这个博客主要是留给很菜的自己看的)节点在云上,因为内外网IP和权限问题折腾了一段时间环境:spark:2.1.2hadoop:2.7.5java:1.8IDE:idea 各种弯路:--在IDEA上运行没有成功,spark standalone 模式下始终提示申请不到资源(待解决)每个节点8个core,32G memory,各取1个core,1024M memory,依然提示:WARN TaskS...
2018-03-15 20:22:17 3158
原创 HelloWorld
这是一篇测试用文章public class HelloWorld{public static void main(String[] args){System.out.println("Hello world!");}}
2017-05-10 17:41:32 182
转载 hibernate jpa 注解 @Temporal(TemporalType.DATE) 日期注解
1) DATE :等于java.sql.Date2) TIME :等于java.sql.Time 3) TIMESTAMP :等于java.sql.Timestamp 1.日期:@Temporal(TemporalType.DATE) @Column(name = "applyDate", nullable = false, length = 10) pub
2014-10-31 19:58:00 211
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人