自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(64)
  • 资源 (2)
  • 收藏
  • 关注

原创 第一章 Python基础入门之迭代器

Python系列学习。

2023-06-23 23:52:08 612

原创 SAP日常(3)设置InfoObject作为权限变量

在QUERY报表中,需要使用“公司代码”作为字段权限用于控制报表权限。在IO中勾选“Authorization-Relevant”

2022-06-15 10:43:18 274 1

原创 Cloudera系列(5)使用RDD转换数据

一、编写和传递转换函数二、转换执行三、RDD和DataFrame之间的转换四、基本要点五、实践练习:使用RDD转换数据1、探索Loudacre Web日志文件1、在本节中,您将使用$DEVDATA/weblogs中的数据。查看目录中的.log文件。注意这几行的格式:2、将“weblogs”目录从本地文件系统复制到HDFS目录“/devsh_loudacre”。$ hdfs dfs -put $DEVDATA/weblogs /devsh_loudacre/3、在Spark中,从HDF

2021-11-14 22:39:24 2322

原创 Cloudera系列(4)RDD Overview

一、RDD Overview二、RDD Data Sources三、Creating and Saving RDDs四、RDD操作五、基本要点六、实践练习:使用RDD1、查看RDD操作的API文档1、查看RDD类的API文档(它在Python模块pyspark和Scala包org.apache.spark.rdd中)。注意各种可用的操作2、从文本文件读取和显示数据2、通过在单独的窗口(不是Spark shell)中查看(不编辑)文件,查看您将要使用的简单文本文件。该文件位于$DEVDATA

2021-11-02 23:23:03 1318

原创 Cloudera系列(3)使用DataFrame的Queries分析数据

一、使用列表达式查询数据帧(DataFrame)1、列、列名和列表达式

2021-10-24 23:45:46 2864

原创 Cloudera系列(2)使用数据帧(DataFrame)和模式(Schemas)

一、

2021-10-21 23:04:58 683

原创 Cloudera系列(1)Apache Spark基础知识

一、What is Apache Spark?Apache Spark是一种用于大规模数据处理的快速通用引擎。Written in Scala运行在JVM中的函数式编程语言Spark shell交互式学习、数据探索或特别分析Python and ScalaSpark applications用于大规模数据处理Python, Scala, and JavaSpark提供了一个构建在core Spark上的库堆栈Core Spark提供了Spark的基本抽象:弹性分布

2021-10-18 23:28:35 333

原创 Hadoop学习笔记(28)Flume的命令和配置文件介绍

一、

2021-06-27 23:18:52 1263 1

原创 Hadoop学习笔记(27)Flume的简介以及安装部署

一、Flume的简介Flume是Cloundera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合、传输的系统。Flume基于流式架构,灵活简单。Flime最主要的作用是:实时读取服务器本地磁盘的数据,将数据写入到HDFS。1、Flume基础架构Flume基础组成架构如图:...

2021-06-14 20:47:32 361 3

原创 Hadoop学习笔记(25)Azkaban的作业调度

一、

2021-05-30 07:18:49 201

原创 Hadoop学习笔记(24)Linux CLI的作业调度(原始方式)

截止目前,命令行(CLI)界面有linux的CLI、hive的CLI、mysql的CLI。而hive的CLI、mysql的CLI都是需要在linux的CLI输入命令hive或者mysql才能进入。[admin@master ~]$ hive[admin@master ~]$ mysql一、在linux的CLI进行hive交互1、如何在linux的CLI界面执行hive的命令语句,而不需要进入到hive的CLI中?在linux的CLI中输入命令hive --help --service cli,

2021-05-30 03:04:58 92

原创 【Hive Warn】hive.metastore.local does not exist处理方式

1、问题背景当输入命令hive启动hive时,报了如下警告:21/05/30 01:37:12 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not exist2、问题原因是因为在0.10 0.11或者之后的hive版本 hive.metastore.local 属性不再使用。3、解决方式修改hive-site.xml文件,去掉hive.metastore.local的属性配置。[admin@master ~]

2021-05-30 02:02:56 1931

原创 Hadoop学习笔记(23)Azkaban的简介以及安装部署

一、Azkaban的简介Azkaban是由Linkedin开源的一个批量工作流(WorkFlow)任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。Azkaban具有如下功能特点:Web用户界面方便上传工作流方便设置任务之间的关系调度工作流认证/授权(权限的工作)能够杀死并重新启动工作流模块化和可插拔的插件机制项目工作区...

2021-05-24 23:14:57 580 4

原创 Hadoop学习笔记(21)Sqoop的应用开发(一个ETL工具)

一、

2021-05-15 17:12:42 242 5

原创 Hadoop学习笔记(19)Hive的数据查询、JOIN连接以及内置函数

一、SELECT语句1、查询所有hive> select * from sougou.table_partition;2、查询10条数据hive> select * from sougou.table_partition limit 10;3、统计条数hive> select count(distinct uid) from sougou.table_partition;二、WHERE语句hive> select * from sougou.table_part

2021-04-22 22:23:46 415

原创 Hadoop学习笔记(18)Hive的数据定义和数据操作

一、

2021-04-19 22:33:57 188

原创 Hadoop学习笔记(17)Hive的数据类型和文件编码

一、Hive的常用内部命令1、有好几种方式可以与Hive进行交互。此处主要是命令行界面(CLI)。2、$HIVE_HOME/bin目录下包含了可以执行各种各样Hive服务的可执行文件,包括hive命令行界面(CLI是使用Hive的最常用方式)。[admin@master ~]$ cd apache-hive-1.2.2-bin/bin[admin@master bin]$ lsbeeline ext hive hive-config.sh hiveserver2 metatool

2021-03-22 01:14:15 1315

原创 Hadoop学习笔记(16)Hive的基本概念、Hive的下载与安装、MySQL数据库下载与安装

一、Hive基本概念Hive简介Hive是一个基于hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它把海量数据存储于hadoop文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用HQL(类SQL)语言对这些数据进行自动化管理和处理。我们可以把Hive中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在HDFS中的。Hive经过对语句进行解析和转换,最终生成一系列基于hadoop的map、reduce任务,通过执行这些任务完成数据处理。Hive不仅提供了

2021-03-20 20:11:41 635

原创 Hadoop学习笔记(10)HDFS接口

HDFS概念:Hadoop有一个抽象的文件系统概念,它提供了文件系统实现的各类接口,HDFS只是其中一个实现,提供了一个文件系统抽象类org.apache.hadoop.fs.FileSystem,它定义了hadoop中的文件系统接口,并且该抽象类有具体实现。Hadoop对文件系统提供了许多接口,它一般使用URL方案来选取合适的文件系统实例进行交互。URL:统一资源定位符如:hdfs://master:9000/test/t1.txt如:www.baidu.com(此两为url)URI

2021-03-07 23:14:24 1312

原创 Hadoop学习笔记(9)从三个方面去初步了解HDFS

HDFS简介1、什么是HDFS?HDFS是指Hadoop Distributed FileSystem简称,也成为hadoop分布式文件系统2、关键词:分布式比如现在A B C D四个节点机器,每个几点硬盘容量为2T,总共容量8T。当现在有一份3T的数据文件需要存储,可以发现单独一个节点都无法存储,所以分布式系统会把该数据分别存到多个节点中。图中的block1、block2、block3都分别有3个,1个正式数据块,2个为副本数据块(系统默认是3个),map随机选择一个,再传reduce。3、

2021-03-06 20:59:09 157 1

原创 Hadoop学习笔记(2)Hadoop节点部署

一、Hadoop分布式架构在hadoop架构中,有两种节点角色:Master主节点NameNode(NN)SecondaryNameNode(SNN)ResourceManager(RM)Slave从节点NodeManager(NM)DataNode(DN)

2021-02-28 15:44:48 136

原创 Hadoop学习笔记(8)启动Hadoop集群

一、

2021-02-28 15:44:00 1095

原创 Hadoop学习笔记(7)Hadoop解压安装以及配置

一、安装Hadoop之前说明安装Hadoop需要在官网把Hadoop文件下载好,并且上传到Linux中。上传步骤请参考:Hadoop学习笔记(6)如何使用Xshell从Windows向Linux上传文件二、解压安装Hadoop输入命令查看文件存放[admin@master ~]$ lshadoop-3.1.4.tar.gz test usr 公共 模板 视频 图片 文档 下载 音乐 桌面开始解压安装[admin@master ~]$ tar -zxvf hadoop-3

2021-02-02 12:47:22 6134

原创 Hadoop学习笔记(4)安装JDK以及配置环境变量

一、

2021-01-30 18:17:40 412

原创 Hadoop学习笔记(6)如何使用Xshell从Windows向Linux上传文件

在部署hadoop环境是,经常需要把下载好放在window系统本地的文件上传到Linux系统本地文件夹中。以上传JDK文件为例。上传步骤如下:1、输入rz命令,查看该命令是否存在[admin@master ~]$ rzbash: rz:conmand not found2、出现以上消息则代表该命令不存在。如果输入命令会弹出选择文件的窗口,则代表命令存在,可以正常使用。那么,当命令不存在时,则需要安装lrzsz,输入如下命令,并等待完成安装[root@master ~]# yum -y in

2021-01-30 16:58:10 772

原创 Hadoop学习笔记(5)免密钥登录配置

一、在配置免密钥之前修改hostname二、在HadoopMaster节点配置免密钥1、概述该部分所有的操作都要在admin用户(是普通用户,不是root用户)下,换回admin的命令是:su - admin输入密码。当通过一个节点访问另外一个节点时,虽然没有了防火墙的限制,但还会有密码的限制。hadoop集群的启动主要有两种方式:一键启动逐个节点进程启动一般情况下使用一键启动,主节点启动时,带动从节点启动集群。Hadoop集群在启动时通过一个脚本在主节点运行,主节点带动从节点运行

2021-01-30 15:06:39 1043 3

原创 Hadoop学习笔记(3)Linux环境配置与部署

一、

2021-01-30 13:02:22 240

原创 Hadoop学习笔记(1)基于VMware的hadoop环境搭建笔记

一、Vmware16下载1、在Vmware官网下载2、下载后,自行安装。点击打开Vmware二、下载CentOS 7 64位1、输入CentOS官网地址https://www.centos.org/,并点击下载页面进行下载2、选择CentOS 7 64位3、此处我选择下载的是阿里云的4、下载完成,保存到相应的存放路径即可。三、创建虚拟机1、点击新建虚拟机2、选择典型安装(有些小的功能可以选择自定义安装)。3、选择稍后安装操作系统(方便后续安装可视化界面)4、选择已

2021-01-12 22:04:40 327

原创 SAP BW/4 HANA笔记(1)SAP BW ∕ 4HANA中的概念

SAP BW ∕ 4HANA的关键领域是:数据建模(Data Modeling)数据采集(Data Acquisition)分析(Analysis)通过BW工作区对信息的灵活访问(Agile Access to Information in the Data Warehouse)1、先说说数据建模(Data Modeling) 企业的数据往往复杂且多变的,只有将主要具有不同格式和来源的数据捆绑到查询中并进行集成,才可能进行全面,有意义的数据分析。(1)那么如何才能进行有效的集成呢?

2020-08-09 13:21:11 3072

原创 第一章 Python基础入门之列表生成式和生成器

Python系列学习。

2020-07-24 22:31:53 118

原创 Tableau笔记(16)创建和使用集

1、集的释义集可以看作数据的组合,如筛选后的结果,如我是亚洲区域经理,目前仪表盘上显示的是全球范围的数据,当我想看自己所管理的区域时,那么我可以创建一个集,这个集只有亚洲的区域数据。2、每一种集在不同情况下的图标是不一样的3、创建集创建常量集步骤如下:(1)直接在图表上选择集的范围,选好会高亮(2)然后创建集或者添加到已有的集(3)创建名称,视图会显示已经选择的维度的数据,因为该散点图中存在5个维度,所以选择后这些维度以及他们选中的成员值会列表形式显示出来(4)创建完成后,把集“

2020-07-14 16:53:20 2186

原创 Tableau笔记(15)静态分组、动态分组、数据桶(生成度量区间维度)

1、静态分组当我想对种类的成员值进行分组(如利润大于600000为一组,剩余的为其他组)时,步骤如下:(1)右键种类字段,选择创建分组(2)选好成员值点击分组,并命名组名(注:这种分组方式是静态,并且需要知道大于600000的成员值)(3)最终效果2、动态分组动态分组可以编辑函数或者参数实现。对利润大于100000的子类别进行动态分组步骤如下:(1)在数据编辑区右键创建计算字段,并编辑脚本(2)把该字段拖入颜色标记卡,得到最终效果通过输入参数对利润的子类别进行动态分组

2020-07-07 11:03:07 6206 2

原创 Tableau笔记(14)使用分层结构实现“上卷下钻”功能

1、创建分层结构“国家信息”2、拖入视图区3、点击“+”号实现下钻功能4、点击“-”号则实现上卷功能

2020-07-06 23:33:22 1288

原创 Tableau笔记(13)创建分层结构

1、把“子类别”拖入“类别”上2、完成

2020-07-06 23:29:24 361

原创 Tableau笔记(12)编辑字段的默认设置和属性

1、右键单击字段

2020-07-06 23:27:51 769

原创 第一章 Python基础入门之装饰器详解以及案例解析

Python系列学习装饰器本质是函数,目的是装饰其他函数,即为其他函数添加附加功能。

2020-07-04 23:04:19 133

原创 第一章 Python基础入门之程序练习:实现简单的shell sed替换功能

Python系列学习sed(Stream EDitor)是一个强大而简单的文本解析转换工具,可以读取文本,并根据指定的条件对文本内容进行编辑(删除、替换、添加、移动等),最后输出所有行或者仅输出处理的某些行。sed也可以在无交互的情况下实现相当复杂的文本处理操作,被广泛应用于Shell脚本中,用以完成各种自动化处理任务。

2020-07-04 23:02:11 281

原创 第一章 Python基础入门之递归和高阶函数

Python系列学习在函数内部,可以调用其他函数。如果一个函数在内部调用自身本身,这个函数就是递归函数。必须有一个明确的结束条件每次进入更深一层的递归时,问题规模相比上次递归都应有所减少。递归效率不高,递归层次过多会导致栈溢出(在计算机中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧。由于栈的大小不是无限的,所以,递归调用的次数过多,会导致栈溢出。# 递归案例1:不断的除以2。定义一个函数,调用时调用回自身。

2020-07-04 22:58:06 147

原创 第一章 Python基础入门之局部变量与全局变量作用域

Python系列学习。

2020-07-04 22:57:16 176

原创 第一章 Python基础入门之函数式编程参数详解

Python系列学习

2020-07-04 22:56:13 126

Developer Training for Apache Spark and Hadoop

Developer Training for Apache Spark and Hadoop

2021-11-14

Developer Training for Apache Spark and Hadoop:Hands-On Exercise

Developer Training for Apache Spark and Hadoop:Hands-On Exercises

2021-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除