大数据
大数据相关知识
码农渔夫
我是一名新时代广深漂农民工,擅长Go、K8S、gRPC等相关技术。
2023年开始,已全面拥抱Rust高性能,All in AI大模型,期待!
路漫漫其修远兮,吾将上下而求索。有空来我知识星球逛逛:Meta-Go笔记(免费)
展开
-
SSH免密登录的讲解
配置无密登录进入:cd ~ 查看:ls -al 如果没有 .ssh 那就先去访问别人 ssh hahoop201(另外一台的机器名称)这样就有了 然后进入ssh: cd .ssh/ 接下来要生成私钥和公钥了 ssh-keygen -t rsa 然后三次回车就可以生成了 再查看:ls 生成了id_rsa(私钥)、id——rsa.pub(g公钥) 9,然后发送ssh-c...原创 2019-05-07 18:52:10 · 218 阅读 · 0 评论 -
IDEA 使用Maven创建Spark WordCount经典案例
打开IDEA, package com.atguigu.wordcountimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWorkCount { def main(args: Array[String]): Unit = { //创...原创 2019-01-05 20:51:37 · 558 阅读 · 0 评论 -
scala的reduceRight和reduceLefft的使用
今天我们来学习Scala中的reduceRight和reduceLefft如何使用, package UerFuntion01object Array02 { def main(args: Array[String]): Unit = { //1、折叠,化简:将二元函数引用于集合中的函数 val list = List(2,3,5,6) val left1...原创 2019-01-05 22:49:16 · 391 阅读 · 0 评论 -
黑哥讲解spark-RDD编程
spark-RDD编程作者:黑哥一、编程模型在spark中,RDD被表示为对象,我们通过一系列的 transformations 定义 RDD 之后,再调用 actions触发 RDD 的计算。只需要记住一句话:在 Spark 中,只有遇到 action,才会执行 RDD 的计算(即延迟计算),action可以是向应用程序返回结果(count, collect 等),或者是向存储...原创 2019-03-09 22:05:30 · 344 阅读 · 0 评论 -
黑哥-细说spark Streaming
spark streaming作者:黑哥1,spark streaming 简介Spark Streaming 是一个分布式数据流处理框架。 使用它可以很容易地开发近乎实时的 分布式实时数据流处理程序。 它不仅拥有简单的编程模型,还能处理大数量的数据流。 使 用它也可以把历史数据和实时数据结合起来处理。2,spark streaming APISparkStreaming ...原创 2019-03-09 21:52:59 · 258 阅读 · 0 评论 -
详细讲解Scala数据结构
1,Scala支同时持可变集合和不可变集合,不可变集合可以安全的并发访问不可变集合:scala.collection.immutable(Scala默认采用不可变集合)可变集合:scala.collection.mutable2,Scala的集合有三大类序列seq(有序的,Linear Seq) 集Set 映射Map[key -> value]初学者会有点不明白,什么时...原创 2019-01-26 22:34:48 · 1100 阅读 · 0 评论 -
黑哥-细说spark SQL
spark-SQL作者:黑哥1, 介绍sparkSQL是spark上高级模块,sparkSQL是一个SQL解析引擎,将SQL解析成特殊的RDD(DataFrame),然后再Spark集群中运行。sparkSQL是用来处理结构化数据的(先将非结构化的数据转换成结构化数据)sparkSQL支持两种编程API1,SQL方式 2,DataFrame的方式(DSL)s...原创 2019-03-09 21:41:54 · 250 阅读 · 0 评论 -
初学者sparkCore入门
1,概述Spark 是一个基于内存的用于处理、分析大数据的集群计算框架它提供了一套简单的编程接口,从而使得应用程序开发者方便使用集群节点的 CPU 、内存、存储资源来处理大 数据。2,spark主要特点:使用方便:Spark 提供了比 MapReduce 更简单的编程模型。快速:快速的原因 -> a.基于内存计算;b.它实现了更先进的执行引擎。通用:可用于批处理、交互 分析、流处理、机器学习和图计算。不像Hadoop MapReduce只适合批处理。可扩展: Spark 集群的数据处理能力原创 2020-06-19 19:58:52 · 231 阅读 · 0 评论