大数据
大数据学习
_JOY
这个作者很懒,什么都没留下…
展开
-
spark缓存机制
第一次调用动作并计算出RDD内容后,RDD的内容可以存储在集群的内存或磁盘上。Spark为持久化RDD定义了几种不同的机制,用不同的StorageLevel值表示。rdd.cache()是rdd.persist(StorageLevel.MEMORY)的简写,它将RDD存储为未序列化的Java对象。当Spark估计内存不够存放一个分区时,它干脆就不在内存中存...原创 2020-11-12 15:26:26 · 1238 阅读 · 0 评论 -
离线测试 - 手把手教你Hope的安装使用
1.简介hope的存在,就是为了不用频繁的提交代码到离线托管平台,进行离线任务的测试。注意:目前hope只支持Python2的环境。推荐Python2.7.15的最新版。1.mac安装 pyenv$ brew update$ brew install pyenv# .zshrc , .bashrc export PYENV_ROOT="$HOME/.pyenv" expo...原创 2019-02-18 20:16:18 · 1444 阅读 · 0 评论 -
Spark - spark.udf.register
UDF:User Defined Function,用户自定义函数val userData = Array(("a", 10), ("bb", 11), ("ccc", 12), ("ddddd", 13))val userDF = spark.createDataFrame(userData).toDF("name", "age")userDF.show+-----+-原创 2019-02-19 14:51:33 · 5281 阅读 · 1 评论 -
在spark SQL中指定多个表
1.写一个创建mysql表的工具类Utility.scala/** * 创建mysql的表 * * @param url msyql的url * @param userName mysql用户名 * @param password mysql密码 * @param tables 注册的表名集合 * @param spark...原创 2019-02-20 11:27:33 · 1831 阅读 · 0 评论 -
Spark - 以编程方式执行Spark SQL查询
初始化spark,你只需传递两个参数:val conf = new SparkConf().setMaster("local").setAppName("My App")val sc = new SparkContext(conf) 集群URL:告诉Spark如何连接到集群上。在这几个例子中我们使用的是local,这个 特殊值可以让Spark运行在单机单线程上而无需连...原创 2019-02-26 15:42:27 · 402 阅读 · 0 评论