原博文
2016-11-12 06:16 −
由于Scala才刚刚开始学习,还是对python更为熟悉,因此在这记录一下自己的学习过程,主要内容来自于spark的官方帮助文档,这一节的地址为: http://spark.apache.org/docs/latest/quick-start.html 文章主要是翻译了文档的内容,但也在里边加入了一...
0
47428
相关推荐
2019-12-22 20:54 −
kafka版本 1.0.0
spark版本 spark-streaming-kafka-0-10_2.11/** * @created by imp ON 2019/12/21 */class KafkaManagerByRedis(zkHost:String,kafkaParams: Map[St...
2019-11-22 16:22 −
spark可以作为一个分布式的查询引擎,用户通过JDBC/ODBC的形式无需写任何代码,写写sql就可以实现查询啦,那么我们就可以使用一些支持JDBC/ODBC连接的BI工具(比如tableau)来生成一些报表。
spark thriftserver的实现也是...
2019-11-29 20:17 −
1.首先检查Hadoop相关进程,是否已经启动。若未启动,切换到/apps/hadoop/sbin目录下,启动Hadoop。 view plain copy
jps
cd /apps/hadoop/sbin
./start-all.sh
2.在Linux本地新建/data/spark5目录。 ...
0
269
2019-12-20 15:08 −
https://www.cnblogs.com/sharpxiajun/p/5506822.html 操作类型 函数名 作用 转化操作 map() 参数是函数,函数应用于RDD每一个元素,返回值是新的RDD flatMap() 参数是函数,函数应用于RDD...
2019-12-14 17:24 −
spark on yarn 的执行过程在 yarn RM 上无法直接查看,即 http://192.168.10.10:8088,这对于调试程序很不方便,所以需要手动配置
配置方法
1. 配置 spark-defaults.conf
cp spark-...
2019-12-17 14:10 −
Data Serialization
对spark程序来说,可能会产生的瓶颈包括:cpu,网络带宽,内存
在任何分布式应用中数据序列化都非常重要,数据序列化带来的作用是什么?第一减少内存占用,第二减小网络传输带宽消耗。spark提供了两种序列化方式:
1.Java serialization
默认情...
2019-12-13 15:25 −
题目:
比较两个版本号 version1 和 version2。如果 version1 > version2 返回 1,如果 version1 < version2 返回 -1, 除此之外返回 0。...
2019-12-23 14:58 −
1.什么是SparkRDD算子:
总的来讲RDD是Spark最小的数据抽象,每一个rdd算子都拥有五个主要的属性:
1.RDD是一组已经分好区的数据集
2.RDD拥有计算分区数据的功能
3.依赖其他RDD
4.对于key-value格式的RDD,可以自定义分区
5.RDD更喜欢在数据本地计算数据(即...
2019-12-25 20:44 −
https://blog.csdn.net/lsshlsw/article/details/51213610...