大数据_码农渔夫的博客-CSDN博客

大数据

关注

大数据相关知识

关注数：文章数：8 文章阅读量：3456 文章收藏量：8

作者: 码农渔夫

我是一名新时代广深漂农民工，擅长Go、K8S、gRPC等相关技术。 2023年开始，已全面拥抱Rust高性能，All in AI大模型，期待！路漫漫其修远兮，吾将上下而求索。有空来我知识星球逛逛：Meta-Go笔记(免费)

展开

SSH免密登录的讲解

配置无密登录进入：cd ~ 查看：ls -al 如果没有 .ssh 那就先去访问别人 ssh hahoop201(另外一台的机器名称)这样就有了然后进入ssh： cd .ssh/ 接下来要生成私钥和公钥了 ssh-keygen -t rsa 然后三次回车就可以生成了再查看：ls 生成了id_rsa(私钥)、id——rsa.pub(g公钥) 9，然后发送ssh-c...

原创 2019-05-07 18:52:10 · 223 阅读 · 0 评论
IDEA 使用Maven创建Spark WordCount经典案例

打开IDEA， package com.atguigu.wordcountimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object ScalaWorkCount { def main(args: Array[String]): Unit = { //创...

原创 2019-01-05 20:51:37 · 576 阅读 · 0 评论
scala的reduceRight和reduceLefft的使用

今天我们来学习Scala中的reduceRight和reduceLefft如何使用， package UerFuntion01object Array02 { def main(args: Array[String]): Unit = { //1、折叠，化简：将二元函数引用于集合中的函数 val list = List(2,3,5,6) val left1...

原创 2019-01-05 22:49:16 · 407 阅读 · 0 评论
黑哥讲解spark-RDD编程

spark-RDD编程作者：黑哥一、编程模型在spark中，RDD被表示为对象，我们通过一系列的 transformations 定义 RDD 之后，再调用 actions触发 RDD 的计算。只需要记住一句话：在 Spark 中，只有遇到 action，才会执行 RDD 的计算(即延迟计算)，action可以是向应用程序返回结果(count, collect 等)，或者是向存储...

原创 2019-03-09 22:05:30 · 366 阅读 · 0 评论
黑哥-细说spark Streaming

spark streaming作者：黑哥1，spark streaming 简介Spark Streaming 是一个分布式数据流处理框架。使用它可以很容易地开发近乎实时的分布式实时数据流处理程序。它不仅拥有简单的编程模型，还能处理大数量的数据流。使用它也可以把历史数据和实时数据结合起来处理。2，spark streaming APISparkStreaming ...

原创 2019-03-09 21:52:59 · 269 阅读 · 0 评论
详细讲解Scala数据结构

1，Scala支同时持可变集合和不可变集合，不可变集合可以安全的并发访问不可变集合：scala.collection.immutable（Scala默认采用不可变集合）可变集合：scala.collection.mutable2，Scala的集合有三大类序列seq(有序的，Linear Seq) 集Set 映射Map[key -> value]初学者会有点不明白，什么时...

原创 2019-01-26 22:34:48 · 1106 阅读 · 0 评论
黑哥-细说spark SQL

spark-SQL作者：黑哥1，介绍sparkSQL是spark上高级模块，sparkSQL是一个SQL解析引擎，将SQL解析成特殊的RDD（DataFrame）,然后再Spark集群中运行。sparkSQL是用来处理结构化数据的（先将非结构化的数据转换成结构化数据）sparkSQL支持两种编程API1，SQL方式 2，DataFrame的方式（DSL）s...

原创 2019-03-09 21:41:54 · 259 阅读 · 0 评论
初学者sparkCore入门

1，概述Spark 是一个基于内存的用于处理、分析大数据的集群计算框架它提供了一套简单的编程接口，从而使得应用程序开发者方便使用集群节点的 CPU 、内存、存储资源来处理大数据。2，spark主要特点：使用方便：Spark 提供了比 MapReduce 更简单的编程模型。快速：快速的原因 -> a.基于内存计算;b.它实现了更先进的执行引擎。通用：可用于批处理、交互分析、流处理、机器学习和图计算。不像Hadoop MapReduce只适合批处理。可扩展： Spark 集群的数据处理能力

原创 2020-06-19 19:58:52 · 251 阅读 · 0 评论

大数据

作者: 码农渔夫

SSH免密登录的讲解

IDEA 使用Maven创建Spark WordCount经典案例

scala的reduceRight和reduceLefft的使用

黑哥讲解spark-RDD编程

黑哥-细说spark Streaming

详细讲解Scala数据结构

黑哥-细说spark SQL

初学者sparkCore入门