大数据学习
大数据学习!
心的步伐
wx公众号: AaronCoding 欢迎关注呀,用技术让生活变得更加美好!
如果自己失去了斗志,就来这看看,看到自己在那个时候的自己是什么模样,然后对比现在,笑一笑,深呼吸一下,再继续向前,不行就去奔跑一番再回来,会发现自己是一个奋战到死的勇士!
风里雨里,我会等你,虽然你在遥远的地方,我始终相信距离永远不是阻隔我俩的最大敌人!时间是我们跨越山河的动力,加油!
展开
-
Scala语言学习
1. 前言因为毕业论文中要使用到Spark技术,自己虽然是学java的,但是Spark了解甚少,所以需要开始学习Scala的相关的知识以及Spark的相关知识了,今天主要是对Scala语言进行一个初步的学习吧。2. 基本定义在scala中定义常量和定义变量是不同的,区别如下:object Scala01 { def main(args: Array[String]): Unit = { // var 定义的是变量,可以修改 // val 定义的是常量,不可修改 var n原创 2020-09-17 10:08:41 · 306 阅读 · 0 评论 -
Spark创建DataFrame
1. DataFrame在Spark中可以通过RDD转换为DataFrame,也可以通过DataFrame转化为RDD,DataFrame可以理解为数据的一个格式,实质show()就是一张表。读取数据构造DataFrame主要有以下几种方式:从Json文件中读取通过SQLContext构造类对象构造DataFrame动态创建Schema构造当前的DataFrame结构从parquet文件中读取从MySQL中读取数据从Hive中读取数据2. 从json文件读取构造DataFrame p原创 2020-09-24 09:31:17 · 868 阅读 · 0 评论 -
Spark学习01之基础知识篇
文章目录1. RDD(Resilient Distributed Dataset)弹性分布式数据集1.1 创建RDD1.2 持久化2. 提交任务2.1 Standalone-client模式提交任务2.2 Standalone-cluster模式提交任务2.3 Yarn-client模式提交任务2.4 Yarn-cluster模式提交任务3. 算子RDD3.1 RDD的宽窄依赖4. Spark p...原创 2019-10-17 19:12:11 · 289 阅读 · 0 评论 -
HBase学习
1. HBase简介HBase简介:非关系型数据库知识面扩展原创 2019-10-07 11:03:00 · 301 阅读 · 1 评论 -
解决Hive的beyond the 'VIRTUAL' memory limit
1. 错误在进行hive对任务的mapred过程的时候,时常出现如下的错误:[2019-09-30 03:18:56.709]Container [pid=11578,containerID=container_1569779921172_0010_01_000005] is running 261372416B beyond the ‘VIRTUAL’ memory limit. Curre...原创 2019-09-29 19:53:36 · 3140 阅读 · 4 评论 -
Hive学习知识汇总
1. Hive1.1 Hive简介Hive:数据仓库解释器、编译器、优化器等Hive运行时,元数据存储在关系型数据库中1.2 Hive架构用户接口主要有三个:CLI,Client和WUI。其中最常用的是CLI,CLI启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive Server,在启动Client模式的时候,需要指出Hive Serv...原创 2019-10-02 16:33:33 · 1343 阅读 · 0 评论 -
Hadoop学习03之MapReduce案例
1. 案例分析在一组含有时间年月日时分秒以及此时温度的数据中,通过hadoop的map&reduce取出一个月中温度最高的两个数据。数据如下:1949-10-01 14:21:02 34c1949-10-01 19:21:02 38c1949-10-02 14:01:02 36c1950-01-01 11:21:02 32c1950-10-01 12:21:02 3...原创 2019-09-27 22:30:10 · 544 阅读 · 0 评论 -
Hadoop02学习之MapReduce&YARN
1. MapReduceMapReduce原语:输入(格式化k,v)数据集 → map映射成一个中间数据集(k,v)→ reduce“相同”的key为一组,调用一次reduce方法,方法内迭代这一组数据进行计算。 MapReduce的含义:MapTask&ReduceTask:具体的原理:一个数据块可以分为多个切片,一个切片对应一个map进行处理,map进行处理后的数据会变为k...原创 2019-09-24 18:25:50 · 452 阅读 · 0 评论 -
Hadoop学习01之HDFS&Hadoop集群搭建
Hadoop文件块放置的策略Hadoop文件块放置的策略:第一个副本:放置在上传文件的DN(Data Node);如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点放置。第二个副本:放置在与第一个副本不同的机架的节点上。第三个副本:与第二个副本相同机架的节点。更多副本:选择随机节点。Hadoop的架构模型文件元数据:metadata,文件数据元数据数据本身...原创 2019-09-21 18:30:15 · 423 阅读 · 0 评论 -
大数据学习01之网络基础知识&高并发与负载均衡
TCP/IP协议 OSI 7层参考模型:原创 2019-09-07 21:24:17 · 424 阅读 · 0 评论 -
Linux学习05之Shell编程
文章目录1.脚本编程-bash2.脚本编程-文本流&重定向1.脚本编程-bash大纲图图1大纲图图2bash是解释器、启动器解释器:用户交互输入文本文件输入脚本的本质:启动子进程去读取程序,指定了启动命令的话会执行指定的,如果没有指定,会默认启动一个bash,即使你没有指定bash#! /bin/bash 表示此程序会启动一个bash来执行程序#! /usr/bi...原创 2019-09-01 22:13:17 · 169 阅读 · 0 评论 -
Linux学习01之虚拟机安装&网络配置
文章目录1.安装虚拟机以及linux1.1 安装linux系统以及网络配置1.2 网络配置小结1.安装虚拟机以及linux虚拟机的安装可以直接在网上下载VMware12的版本,安装百度即可知道。linux的安装可以先下载centos的iso镜像文件,建议下载使用阿里云镜像:https://opsx.alibaba.com/mirror安装的过程网上都有,百度即可。1.1 安装linux系...原创 2019-08-21 22:27:35 · 269 阅读 · 0 评论 -
Linux学习02之文件系统&简单的文件系统命令
文章目录1.linux基础目录结构2.基础的文件系统命令3.小结1.linux基础目录结构// 安装treeyum install tree -y // 安装treetree / // 可以查看整个linux系统的目录结构tree -L 1 / // -L表示层数 1表示第一层 即查看第一层的目录结构/├── bin├── boot├── dev...原创 2019-08-21 22:38:09 · 171 阅读 · 0 评论