柏冉看世界-CSDN博客

原创 SAP日常（3）设置InfoObject作为权限变量

在QUERY报表中，需要使用“公司代码”作为字段权限用于控制报表权限。在IO中勾选“Authorization-Relevant”

2022-06-15 10:43:18 274 1

一、编写和传递转换函数二、转换执行三、RDD和DataFrame之间的转换四、基本要点五、实践练习:使用RDD转换数据1、探索Loudacre Web日志文件1、在本节中，您将使用$DEVDATA/weblogs中的数据。查看目录中的.log文件。注意这几行的格式:2、将“weblogs”目录从本地文件系统复制到HDFS目录“/devsh_loudacre”。$ hdfs dfs -put $DEVDATA/weblogs /devsh_loudacre/3、在Spark中，从HDF

2021-11-14 22:39:24 2322

原创 Cloudera系列（4）RDD Overview

一、RDD Overview二、RDD Data Sources三、Creating and Saving RDDs四、RDD操作五、基本要点六、实践练习:使用RDD1、查看RDD操作的API文档1、查看RDD类的API文档(它在Python模块pyspark和Scala包org.apache.spark.rdd中)。注意各种可用的操作2、从文本文件读取和显示数据2、通过在单独的窗口(不是Spark shell)中查看(不编辑)文件，查看您将要使用的简单文本文件。该文件位于$DEVDATA

2021-11-02 23:23:03 1318

原创 Cloudera系列（3）使用DataFrame的Queries分析数据

一、使用列表达式查询数据帧（DataFrame）1、列、列名和列表达式

2021-10-24 23:45:46 2864

原创 Cloudera系列（2）使用数据帧（DataFrame）和模式（Schemas）

一、

2021-10-21 23:04:58 683

原创 Cloudera系列（1）Apache Spark基础知识

一、What is Apache Spark?Apache Spark是一种用于大规模数据处理的快速通用引擎。Written in Scala运行在JVM中的函数式编程语言Spark shell交互式学习、数据探索或特别分析Python and ScalaSpark applications用于大规模数据处理Python, Scala, and JavaSpark提供了一个构建在core Spark上的库堆栈Core Spark提供了Spark的基本抽象：弹性分布

2021-10-18 23:28:35 333

原创 Hadoop学习笔记（28）Flume的命令和配置文件介绍

一、

2021-06-27 23:18:52 1263 1

原创 Hadoop学习笔记（27）Flume的简介以及安装部署

一、Flume的简介Flume是Cloundera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合、传输的系统。Flume基于流式架构，灵活简单。Flime最主要的作用是：实时读取服务器本地磁盘的数据，将数据写入到HDFS。1、Flume基础架构Flume基础组成架构如图：...

2021-06-14 20:47:32 361 3

原创 Hadoop学习笔记（25）Azkaban的作业调度

一、

2021-05-30 07:18:49 201

原创 Hadoop学习笔记（24）Linux CLI的作业调度（原始方式）

截止目前，命令行（CLI）界面有linux的CLI、hive的CLI、mysql的CLI。而hive的CLI、mysql的CLI都是需要在linux的CLI输入命令hive或者mysql才能进入。[admin@master ~]$ hive[admin@master ~]$ mysql一、在linux的CLI进行hive交互1、如何在linux的CLI界面执行hive的命令语句，而不需要进入到hive的CLI中？在linux的CLI中输入命令hive --help --service cli，

2021-05-30 03:04:58 92

原创【Hive Warn】hive.metastore.local does not exist处理方式

1、问题背景当输入命令hive启动hive时，报了如下警告：21/05/30 01:37:12 WARN conf.HiveConf: HiveConf of name hive.metastore.local does not exist2、问题原因是因为在0.10 0.11或者之后的hive版本 hive.metastore.local 属性不再使用。3、解决方式修改hive-site.xml文件，去掉hive.metastore.local的属性配置。[admin@master ~]

2021-05-30 02:02:56 1931

原创 Hadoop学习笔记（23）Azkaban的简介以及安装部署

一、Azkaban的简介Azkaban是由Linkedin开源的一个批量工作流（WorkFlow）任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。Azkaban具有如下功能特点：Web用户界面方便上传工作流方便设置任务之间的关系调度工作流认证/授权(权限的工作)能够杀死并重新启动工作流模块化和可插拔的插件机制项目工作区...

2021-05-24 23:14:57 580 4

原创 Hadoop学习笔记（21）Sqoop的应用开发（一个ETL工具）

一、

2021-05-15 17:12:42 242 5

原创 Hadoop学习笔记（19）Hive的数据查询、JOIN连接以及内置函数

一、SELECT语句1、查询所有hive> select * from sougou.table_partition;2、查询10条数据hive> select * from sougou.table_partition limit 10;3、统计条数hive> select count(distinct uid) from sougou.table_partition;二、WHERE语句hive> select * from sougou.table_part

2021-04-22 22:23:46 415

原创 Hadoop学习笔记（18）Hive的数据定义和数据操作

一、

2021-04-19 22:33:57 188

原创 Hadoop学习笔记（17）Hive的数据类型和文件编码

一、Hive的常用内部命令1、有好几种方式可以与Hive进行交互。此处主要是命令行界面（CLI）。2、$HIVE_HOME/bin目录下包含了可以执行各种各样Hive服务的可执行文件，包括hive命令行界面（CLI是使用Hive的最常用方式）。[admin@master ~]$ cd apache-hive-1.2.2-bin/bin[admin@master bin]$ lsbeeline ext hive hive-config.sh hiveserver2 metatool

2021-03-22 01:14:15 1315

原创 Hadoop学习笔记（16）Hive的基本概念、Hive的下载与安装、MySQL数据库下载与安装

一、Hive基本概念Hive简介Hive是一个基于hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据存储于hadoop文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用HQL（类SQL）语言对这些数据进行自动化管理和处理。我们可以把Hive中海量结构化数据看成一个个的表，而实际上这些数据是分布式存储在HDFS中的。Hive经过对语句进行解析和转换，最终生成一系列基于hadoop的map、reduce任务，通过执行这些任务完成数据处理。Hive不仅提供了

2021-03-20 20:11:41 635

原创 Hadoop学习笔记（10）HDFS接口

HDFS概念：Hadoop有一个抽象的文件系统概念，它提供了文件系统实现的各类接口，HDFS只是其中一个实现，提供了一个文件系统抽象类org.apache.hadoop.fs.FileSystem，它定义了hadoop中的文件系统接口，并且该抽象类有具体实现。Hadoop对文件系统提供了许多接口，它一般使用URL方案来选取合适的文件系统实例进行交互。URL：统一资源定位符如：hdfs://master:9000/test/t1.txt如：www.baidu.com（此两为url）URI

2021-03-07 23:14:24 1312

原创 Hadoop学习笔记（9）从三个方面去初步了解HDFS

HDFS简介1、什么是HDFS？HDFS是指Hadoop Distributed FileSystem简称，也成为hadoop分布式文件系统2、关键词：分布式比如现在A B C D四个节点机器，每个几点硬盘容量为2T，总共容量8T。当现在有一份3T的数据文件需要存储，可以发现单独一个节点都无法存储，所以分布式系统会把该数据分别存到多个节点中。图中的block1、block2、block3都分别有3个，1个正式数据块，2个为副本数据块（系统默认是3个），map随机选择一个，再传reduce。3、

2021-03-06 20:59:09 157 1

原创 Hadoop学习笔记（2）Hadoop节点部署

一、Hadoop分布式架构在hadoop架构中，有两种节点角色：Master主节点NameNode（NN）SecondaryNameNode（SNN）ResourceManager（RM）Slave从节点NodeManager（NM）DataNode（DN）

2021-02-28 15:44:48 136

原创 Hadoop学习笔记（8）启动Hadoop集群

一、

2021-02-28 15:44:00 1095

原创 Hadoop学习笔记（7）Hadoop解压安装以及配置

一、安装Hadoop之前说明安装Hadoop需要在官网把Hadoop文件下载好，并且上传到Linux中。上传步骤请参考：Hadoop学习笔记（6）如何使用Xshell从Windows向Linux上传文件二、解压安装Hadoop输入命令查看文件存放[admin@master ~]$ lshadoop-3.1.4.tar.gz test usr 公共模板视频图片文档下载音乐桌面开始解压安装[admin@master ~]$ tar -zxvf hadoop-3

2021-02-02 12:47:22 6134

原创 Hadoop学习笔记（4）安装JDK以及配置环境变量

一、

2021-01-30 18:17:40 412

原创 Hadoop学习笔记（6）如何使用Xshell从Windows向Linux上传文件

在部署hadoop环境是，经常需要把下载好放在window系统本地的文件上传到Linux系统本地文件夹中。以上传JDK文件为例。上传步骤如下：1、输入rz命令，查看该命令是否存在[admin@master ~]$ rzbash: rz:conmand not found2、出现以上消息则代表该命令不存在。如果输入命令会弹出选择文件的窗口，则代表命令存在，可以正常使用。那么，当命令不存在时，则需要安装lrzsz，输入如下命令，并等待完成安装[root@master ~]# yum -y in

2021-01-30 16:58:10 772

原创 Hadoop学习笔记（5）免密钥登录配置

一、在配置免密钥之前修改hostname二、在HadoopMaster节点配置免密钥1、概述该部分所有的操作都要在admin用户（是普通用户，不是root用户）下，换回admin的命令是：su - admin输入密码。当通过一个节点访问另外一个节点时，虽然没有了防火墙的限制，但还会有密码的限制。hadoop集群的启动主要有两种方式：一键启动逐个节点进程启动一般情况下使用一键启动，主节点启动时，带动从节点启动集群。Hadoop集群在启动时通过一个脚本在主节点运行，主节点带动从节点运行

2021-01-30 15:06:39 1043 3

原创 Hadoop学习笔记（3）Linux环境配置与部署

一、

2021-01-30 13:02:22 240

原创 Hadoop学习笔记（1）基于VMware的hadoop环境搭建笔记

一、Vmware16下载1、在Vmware官网下载2、下载后，自行安装。点击打开Vmware二、下载CentOS 7 64位1、输入CentOS官网地址https://www.centos.org/，并点击下载页面进行下载2、选择CentOS 7 64位3、此处我选择下载的是阿里云的4、下载完成，保存到相应的存放路径即可。三、创建虚拟机1、点击新建虚拟机2、选择典型安装（有些小的功能可以选择自定义安装）。3、选择稍后安装操作系统（方便后续安装可视化界面）4、选择已

2021-01-12 22:04:40 327

原创 SAP BW/4 HANA笔记（1）SAP BW ∕ 4HANA中的概念

SAP BW ∕ 4HANA的关键领域是：数据建模（Data Modeling）数据采集（Data Acquisition）分析（Analysis）通过BW工作区对信息的灵活访问（Agile Access to Information in the Data Warehouse）1、先说说数据建模（Data Modeling）企业的数据往往复杂且多变的，只有将主要具有不同格式和来源的数据捆绑到查询中并进行集成，才可能进行全面，有意义的数据分析。（1）那么如何才能进行有效的集成呢？

2020-08-09 13:21:11 3072

原创第一章 Python基础入门之列表生成式和生成器

Python系列学习。

2020-07-24 22:31:53 118

原创 Tableau笔记（16）创建和使用集

1、集的释义集可以看作数据的组合，如筛选后的结果，如我是亚洲区域经理，目前仪表盘上显示的是全球范围的数据，当我想看自己所管理的区域时，那么我可以创建一个集，这个集只有亚洲的区域数据。2、每一种集在不同情况下的图标是不一样的3、创建集创建常量集步骤如下：（1）直接在图表上选择集的范围，选好会高亮（2）然后创建集或者添加到已有的集（3）创建名称，视图会显示已经选择的维度的数据，因为该散点图中存在5个维度，所以选择后这些维度以及他们选中的成员值会列表形式显示出来（4）创建完成后，把集“

2020-07-14 16:53:20 2186

原创 Tableau笔记（15）静态分组、动态分组、数据桶（生成度量区间维度）

1、静态分组当我想对种类的成员值进行分组（如利润大于600000为一组，剩余的为其他组）时，步骤如下：（1）右键种类字段，选择创建分组（2）选好成员值点击分组，并命名组名（注：这种分组方式是静态，并且需要知道大于600000的成员值）（3）最终效果2、动态分组动态分组可以编辑函数或者参数实现。对利润大于100000的子类别进行动态分组步骤如下：（1）在数据编辑区右键创建计算字段，并编辑脚本（2）把该字段拖入颜色标记卡，得到最终效果通过输入参数对利润的子类别进行动态分组

2020-07-07 11:03:07 6206 2

原创 Tableau笔记（14）使用分层结构实现“上卷下钻”功能

1、创建分层结构“国家信息”2、拖入视图区3、点击“+”号实现下钻功能4、点击“-”号则实现上卷功能

2020-07-06 23:33:22 1288

原创 Tableau笔记（13）创建分层结构

1、把“子类别”拖入“类别”上2、完成

2020-07-06 23:29:24 361

原创 Tableau笔记（12）编辑字段的默认设置和属性

1、右键单击字段

2020-07-06 23:27:51 769

原创第一章 Python基础入门之装饰器详解以及案例解析

Python系列学习装饰器本质是函数，目的是装饰其他函数，即为其他函数添加附加功能。

2020-07-04 23:04:19 133

原创第一章 Python基础入门之程序练习：实现简单的shell sed替换功能

Python系列学习sed（Stream EDitor）是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本内容进行编辑（删除、替换、添加、移动等），最后输出所有行或者仅输出处理的某些行。sed也可以在无交互的情况下实现相当复杂的文本处理操作，被广泛应用于Shell脚本中，用以完成各种自动化处理任务。

2020-07-04 23:02:11 281

原创第一章 Python基础入门之递归和高阶函数

Python系列学习在函数内部，可以调用其他函数。如果一个函数在内部调用自身本身，这个函数就是递归函数。必须有一个明确的结束条件每次进入更深一层的递归时，问题规模相比上次递归都应有所减少。递归效率不高，递归层次过多会导致栈溢出（在计算机中，函数调用是通过栈（stack）这种数据结构实现的，每当进入一个函数调用，栈就会加一层栈帧，每当函数返回，栈就会减一层栈帧。由于栈的大小不是无限的，所以，递归调用的次数过多，会导致栈溢出。# 递归案例1：不断的除以2。定义一个函数，调用时调用回自身。

2020-07-04 22:58:06 147

原创第一章 Python基础入门之局部变量与全局变量作用域

Python系列学习。

2020-07-04 22:57:16 176

原创第一章 Python基础入门之函数式编程参数详解

Python系列学习

2020-07-04 22:56:13 126

Developer Training for Apache Spark and Hadoop

Developer Training for Apache Spark and Hadoop:Hands-On Exercise

空空如也