![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 77
普通网友
这个作者很懒,什么都没留下…
展开
-
1.使用Spark Shell进行交互式分析
使用Spark Shell进行交互式分析基础Spark的shell提供了一个学习API的简单方法,也是一个交互式分析数据的强大工具。它可以在Scala(在Java VM上运行,因此是使用现有Java库的好方法)或Python中提供。通过在Spark目录中运行以下代码来启动它:D:\spark-1.6.2-bin-hadoop2.6\bin>spark-shellSpark的原创 2018-01-11 11:24:02 · 1137 阅读 · 0 评论 -
hadoop中的数据压缩
为什们要用压缩?在大数据时代,每个互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用 G 或 T 来衡量。所以如何高效的处理分析大数据的问题摆在了面前。那么我们应用数据压缩的目的有两个: - 1.减少了存储文件所占空间 - 2.为数据传输提速压缩格式Hadoop 对于压缩格式的是自动识别。如果我们压缩的文件有相应压缩格式的扩展名(比如 l原创 2018-01-18 15:01:13 · 430 阅读 · 0 评论 -
hadoop中小文件处理
为什么hdfs不适合小文件的存储?1.因namenode将文件系统的元数据存放在内存中,因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放1million的文件至少消耗300MB内存,如果要存 放1billion的文件数目的话会超出硬件能力 2.HDFS适用于高吞吐量,而不适合低时间延迟的访问。如果同时存入1million的f原创 2018-01-18 14:59:55 · 383 阅读 · 0 评论 -
Spark Sql介绍
概况Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。有几种与Spark SQL进行交互的方式,包括SQL和Dataset API。在计算结果时,使用相同的执行引擎,而不管使用哪种API /语言表示计算原创 2018-01-12 16:34:52 · 583 阅读 · 0 评论 -
spark Ation算子
reduce(func)reduce将RDD中元素两两传递给输入函数,同时产生一个新的值,新产生的值与RDD中下一个元素再被传递给输入函数直到最后只有一个值为止。scala> val c = sc.parallelize(1 to 10)scala> c.reduce((x, y) => x + y)res4: Int = 55reduceByKey顾名思义,reduc原创 2018-01-11 20:12:41 · 221 阅读 · 0 评论 -
spark Transformation 算子
map(func)通过函数func传递源的每个元素来形成一个新的分布式数据集val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))arr.map(x=>(x._1+x._2)).foreach(println)print: A1B2C3mapValuesmapValues顾名思义就是输入函数应用于RDD中K原创 2018-01-11 19:49:27 · 361 阅读 · 0 评论 -
弹性分布式数据集(RDD)
并行集合并行集合 (Parallelized collections) 的创建是通过在一个已有的集合(Scala Seq)上调用 SparkContext 的 parallelize 方法实现的。集合中的元素被复制到一个可并行操作的分布式数据集中。例如,这里演示了如何在一个包含 1 到 5 的数组中创建并行集合:val data = Array(1, 2, 3, 4, 5)val d翻译 2018-01-11 15:41:54 · 533 阅读 · 0 评论