![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 57
数据圈
踏踏实实搞学习
展开
-
Ubuntu下安装和配置Scala教程
1.下载Scala安装包点我下载2.解压安装包3.将解压文件移到/app目录下3.配置环境变量4.验证是否成功原创 2016-08-31 20:48:43 · 8599 阅读 · 0 评论 -
Spark编译与部署
一. 编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行。maven主要是编译java程序的,sbt主要是编译scala程序的。1. 编译Spark(SBT)1.1 安装git并编译安装若为ubun原创 2016-09-01 15:08:28 · 665 阅读 · 0 评论 -
你们是不是很缺大数据?
00 缘起 之所以有这个话题,是因为周末加班中午吃饭与一个同行朋友聊起了这个话题,之后再细细地结合一些其他接触的东西,确实是有些感触的。并且对于行业的一些现状,也的确有些自己的看法,对不对先不论,这玩意儿也没有对错之分,每个人都有自己想法,当然也包括我博客虫了。所以,有些东西、有些想法我还是愿意分享出来的,畅所欲言吧~~01 我眼中的大数据现状! 其实个人在大数据在转载 2016-09-21 17:20:25 · 523 阅读 · 0 评论 -
Spark RDD、DataFrame和DataSet的区别
RDDRDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。对开发者而言,RDD可以看作是Spark的一个对象,它本身运行于内存中原创 2017-06-16 17:05:16 · 2008 阅读 · 0 评论 -
Scala 学习之Map(映射)讲解
Scala Map(映射)Map(映射)是一种可迭代的键值对(key/value)结构。所有的值都可以通过键来获取。Map 中的键都是唯一的。Map 也叫哈希表(Hash tables)。Map 有两种类型,可变与不可变,区别在于可变对象可以修改它,而不可变对象不可以。默认情况下 Scala 使用不可变 Map。// 空哈希表,键为字符串,值为整型var A:Map[Char,Int] =转载 2017-06-21 15:37:56 · 1627 阅读 · 0 评论