自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(43)
  • 收藏
  • 关注

转载 aaaaaaaaaaaaa

QUESTION 1 You are a data engineer implementing a lambda architecture on Microsoft Azure. You use an open-source big data solution to collect, process, and maintain data. The analytical data stor...

2019-06-05 13:41:00 1412

转载 sssssssssssss

QUESTION 1 You develop data engineering solutions for a company. The company has on-premises Microsoft SQL Server databases at multiple locations. The company must integrate data with Microsoft P...

2019-06-04 17:42:00 3816

转载 使用 Transact-SQL查看服务器的排序规则

查看服务器的排序规则设置SELECT CONVERT (varchar, SERVERPROPERTY('collation'));EXECUTE sp_helpsort;SELECT name, description FROM sys.fn_helpcollations(); --SQL Server 2017查看数据库的排序规则设置SELECT name, c...

2019-06-03 15:56:00 198

转载 SQL Server完整备份

完整备份;A.备份到磁盘设备USE AdventureWorks2012; GO BACKUP DATABASE AdventureWorks2012 TO DISK = 'Z:\SQLServerBackups\AdventureWorks2012.Bak' WITH FORMAT, MEDIANAME = 'Z_SQLServerBackups',...

2019-05-29 17:56:00 216

转载 SQL Server 2017 高可用性

可用性功能的使用方式主要有以下四种:高可用性灾难恢复迁移和升级扩大一个或多个数据库的可读副本SQL Server 可用性功能不能替换对经过充分测试的可靠备份和还原策略的需求,后者是所有可用性解决方案最基本的构建基块。AlwaysOn 可用性组SQL Server 2012 中引入的 AlwaysOn 可用性组将数据库的每个事务发送到另一个实例,从而提供...

2019-05-29 17:46:00 445

转载 精心设计的数据湖建筑的商业案例

让我们从数据湖的标准定义开始:数据湖是一个存储库,它以原生格式保存大量原始数据,包括结构化,半结构化和非结构化数据。在需要数据之前,不会定义数据结构和要求。你为什么要关心?革新在大型企业中,数据湖最强大的影响可能是创新的实现。我们已经看到许多数十亿美元的组织正在努力建立数据驱动的洞察力和创新文化。它们被孤立于部门或分区划分的数据存储的结构孤岛所困扰,并且这些...

2019-03-25 10:45:00 161

转载 揭开数据湖建筑的神秘面纱

据Gartner称 , 到2021年 , 80%的成功CDO将创造价值或创造收入作为其第一优先事项。为了在组织的数据环境中创造最大价值,传统的决策支持系统架构已不再适用。 需要开发新的架构模式以利用数据的力量。 为了充分发挥使用大数据的价值,组织需要拥有灵活的数据架构,并能够从数据生态系统中获取最大价值。Data Lake概念已经出现了一段时间。 但是,我看到组织很难理解这...

2019-03-25 10:41:00 92

转载 如何设计成功的数据湖

执行摘要业务用户不断设想出新的创新方法,将数据用于运营报告和高级分析。Data Lake是下一代数据存储和管理解决方案,旨在满足日益精明的用户不断变化的需求。本白皮书探讨了企业数据仓库和其他现有数据管理和分析解决方案的现有挑战。它描述了Data Lake体系结构的必要功能以及利用数据和分析即服务(DAaaS)模型所需的功能。它还介绍了Data Lake成功实施的特...

2019-03-25 10:33:00 166

转载 使用 AWS CLI 向 Amazon S3 批量上传文件

步骤 1:创建一个 AWS IAM 用户在此步骤中,您将使用 IAM 服务创建一个拥有管理权限的用户账户。在后面的步骤中,您将需要使用此账户通过 AWS CLI 安全访问 AWS 产品。a. 当您单击此处时,AWS 管理控制台将在新的浏览器窗口中打开,因此您可以将本分步指南保持打开状态。显示此...

2019-03-24 20:06:00 1487

转载 Azure Data Lake Storage Gen2 优势

优势Azure Data Lake Storage Gen2 旨在处理 EB 规模的数据的这种多样性和数量,同时按照设计,可处理数百 GB 的安全吞吐量。 因此,使你可以灵活地将 Data Lake Storage Gen2 用作实时和批处理解决方案的基础。 下面是 Azure Data Lake Storage Gen 2 带了的附加优势的列表:Hadoop 兼容访问Dat...

2019-03-01 14:39:00 395

转载 创建 Azure Cosmos DB 帐户、数据库和集合

运行所示的命令,以创建 Azure Cosmos DB 帐户、数据库和集合:export NAME="jacksun"export RESOURCE_GROUP="92116f19-67b4-4078-8e64-b488b5c5cede"export LOCATION="EastUS"export DB_NAME="Products"az cosmosdb creat...

2019-02-27 17:23:00 265

转载 Azure网络安全

安全分层方法数据几乎所有情况下,攻击者都会攻击以下数据:存储在数据库中的数据存储在虚拟机磁盘上的数据存储在 Office 365 等 SaaS 应用程序上的数据存储在云存储中的数据存储数据和控制数据访问权限的人员有责任确保数据得到恰当保护。 通常情况下,存在相应法规要求,规定必须提供数据控制和处理方式,确保数据的保密性、完整性...

2019-02-26 17:30:00 93

转载 网络延时--Azure 流量管理器 负载均衡器

使用流量管理器将用户路由到最近的终结点一个答案是 Azure 流量管理器。 流量管理器使用最邻近用户的 DNS 服务器将用户流量定向到全球分布的终结点。下图显示了流量管理器的角色。流量管理器不会查看在客户端和服务器之间传递的流量。 确切的说,它会将客户端 Web 浏览器定向到首选终结点。 流量管理器可用几种不同方式路由流量,例如路由到具有最低延迟的终结点。虽然...

2019-02-26 16:43:00 117

转载 Azure网络设置

用 N 层体系结构可用于构建松散耦合系统的体系结构模式是 N 层体系结构。N 层体系结构将应用程序分为两个或多个逻辑层。 在体系结构方面,较高层级可以从较低层级访问服务,但较低层级应绝对无法访问较高层级。层级有助于区分关注的问题,经过精心设计后可以重复使用。 使用分层体系结构还可以简化维护工作。 层级可以独立地进行升级和替换,并且可以根据需要插入新的层级。“三层”指的是具...

2019-02-26 16:34:00 221

转载 Azure 来存储数据

使用 Azure 来存储数据的优势以下是 Azure 数据存储的一些重要优势:自动备份和恢复:减轻发生任何意外故障或中断时丢失数据的风险。在全球范围内复制:复制数据,防止出现任何计划内或计划外事件(例如计划性维护或硬件故障)。 可选择在全球多个位置复制数据。支持数据分析:支持对数据使用情况进行分析。加密功能:对数据加密,使之十分安全;也可对能够访问数据的人员进行严...

2019-02-26 15:39:00 247

转载 Azure 计算

什么是 Azure 计算?Azure 计算是一种按需计算服务,用于运行基于云的应用程序。 它通过虚拟机和容器提供多核处理器和超级计算机等计算资源。 它还提供无服务器计算,无需设置或配置基础结构即可运行应用。 资源按需提供,通常可在几分钟甚至几秒内创建。 只需为使用的资源付费,并且只在使用它们时付费。有四种用于在 Azure 中执行计算的常用技术:虚拟机容器Azur...

2019-02-26 15:06:00 105

转载 AZure账号-订阅-租户

使用多个 Azure 订阅(按照订阅收费)可以在单个 Azure 帐户下创建多个订阅。 这对于企业尤其有用,因为_访问控制_和_计费_在订阅级别发生,而不是在帐户级别发生。Azure AD 租户和订阅存在多对一的信任关系:一个租户可以与多个 Azure 订阅相关联,但是每个订阅只与一个租户相关联。 借助此结构,组织可以管理多个订阅,并跨这些订阅中的所有资源设置安全规则。下...

2019-02-26 12:13:00 702

转载 可用性区域 VS 区域对

什么是可用性区域?可用性区域是 Azure 区域中的物理上独立的数据中心。每个可用性区域都由一个或多个数据中心组成,这些数据中心都配置了独立的电源、冷却和网络设备。 可用性区域被设置为_隔离边界_。 如果一个区域出现故障,其他区域会继续正常工作。 可用性区域通过高速专用光纤网络相连。什么是区域对?在同一地域(例如美国、欧洲或亚洲)内,每个 Azure 区域始终与至少距其...

2019-02-26 11:57:00 369

转载 Azure虚拟机安装 IIS配置 VM 扩容

https://docs.microsoft.com/zh-cn/learn/modules/welcome-to-azure/4-create-a-vm?pivots=windows-cloud在此页侧边的 Cloud Shell 中,运行以下命令以创建一个用户名,并生成一个随机密码。bash复制USERNAME=azureuserPASSWORD=$(opens...

2019-02-26 11:51:00 275

转载 Azure

myjob818@Azure:~$ az vm create --name myVM --resource-group 83f1619a-8d3f-489a-acef-c2b3c5a5c700 --image Win2016Datacenter --size Standard_DS2_v2 --location eastus --admin-username $USERNAME --ad...

2019-02-26 11:32:00 69

转载 Redis 有序集合 命令集

BZPOPMAX: BZPOPMAX zset1 zset2 0 ---多个集合最大元素BZPOPMIN:BZPOPMIN zset1 zset2 0 ---多个集合最小元素ZADD:ZADD myzset 2 "two" 3 "three" --向集合添加元素ZCARD:ZCARD myzset --显示集合元素个数ZCOUNT:ZCOUNT myzset ...

2019-02-21 15:26:00 112

转载 大数据平台架构--学习笔记

何谓五横,基本还是根据数据的流向自底向上划分五层,跟传统的数据仓库其实很类似,数据类的系统,概念上还是相通的,分别为数据采集层、数据处理层、数据分析层、数据访问层及应用层。同时,大数据平台架构跟传统数据仓库有一个不同,就是同一层次,为了满足不同的场景,会采用更多的技术组件,体现百花齐放的特点,这是一个难点。具体见下图示例,这张图是比较经典的,也是妥协的结果,跟当前网上很多的大数据架构...

2019-02-15 11:08:00 1756

转载 spark 聚合函数比较 by key

combineByKey-->>aggregateByKey-->>foldByKey-->>reduceByKey-->>groupByKey-->>countByKey0> combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=...

2019-01-28 18:11:00 134

转载 Flume Interceptors

Flume InterceptorsFlume has the capability to modify/drop events in-flight. This is done with the help of interceptors. Interceptors are classes that implementorg.apache.flume.interceptor.In...

2019-01-15 17:41:00 112

转载 sqoop使用指南

Sqoop User Guide (v1.4.6)1.IntroductionSqoop is a tool designed to transfer data between Hadoop and relational databases or mainframes. You can use Sqoop to import data fr...

2019-01-14 16:07:00 1266

转载 Sqoop参数

Import参数;Table1.Common argumentsArgumentDescription--connect <jdbc-uri>Specify JDBC connect string--connection-manager <class-name>Specify connection man...

2019-01-14 15:56:00 99

转载 Hadoop学习笔记-Day 2

名词解释 ▪ Operations are eager when they are executed as soon as the statement is reached in the code; 勤快运行:接收到代码立刻执行; ▪ Operations are lazy when the execution occurs only when the result is refe...

2018-12-28 08:20:00 105

转载 Hadoop学习笔记--Day 1

名词解释 CDH #(Cloudera’s Distribution including Apache Hadoop) ecosystem projects #生态系统项目 Subscription #订阅 Volume #容积 Velocity #速度 Variety #多样的 ETL #Extract Transform Load Collaborative fil...

2018-12-21 15:27:00 171

转载 Hive安装

===============MySQL安装=========================================这个安装很简单,是在线安装,只需要按顺序执行一下几个命令就ok了。(1)sudo apt-get install mysql-server(2)sudo apt-get install mysql-client(3)sudo apt-get install lib...

2018-12-18 18:07:00 92

转载 Privileges Required for Hive Operations 权限管理

Privileges Required for HiveOperationsCodesY:Privilege required.Y + G: Privilege "WITH GRANT OPTION" required.ActionSelectInsertUpdateDelete...

2018-12-18 16:36:00 210

转载 VBA 统计所有sheet每列的空值率

Sub Null_Rate()Dim xlApp As Excel.ApplicationDim xlBook As Excel.WorkbookDim xlSheet As Excel.WorksheetDim line As IntegerDim col As IntegerDim line_null As IntegerDim line_max As IntegerSe...

2018-12-14 16:51:00 221

转载 hadoop hdfs 高可用性安装 测试 zookeeper 自动故障转移

安装基于CentOS 7 安装,系统非最小化安装,选择部分Server 服务,开发工具组。全程使用root用户,因为操作系统的权限、安全,在启动时会和使用其它用户有差别。Step 1:下载hadoop.apache.org 选择推荐的下载镜像结点; https://hadoop.apache.org/releases.html Step 2:下载JDK http://www.o...

2018-12-13 17:40:00 184

转载 HDFS命令

[root@master hadoop-3.1.1]# hdfsUsage: hdfs [OPTIONS] SUBCOMMAND [SUBCOMMAND OPTIONS] OPTIONS is none or any of:--buildpaths attempt to add class files from build tre...

2018-12-07 16:24:00 417

转载 Log server 找不到 historyserver

Failed redirect for container_1544160578687_0003_01_000001ResourceManager RM Home NodeManagerTools Failed while trying to construct the redirect url to the log server. Log Server url may n...

2018-12-07 15:18:00 280

转载 Hadoop 3.0: YARN Resource自定义资源配置说明

yarn支持可扩展资源类型 所有节点、应用程序、队列,默认情况下Yarn使用 CPU和内存。资源定义可以扩展为任意的“countable”资源。一个countable 资源,container运行的时候,将会被暂用,完毕后将会释放。问题导读yarn默认情况下使用哪些资源?Yarn如何实现扩展自定义资源?自定义资源,可以在哪个配置文件中配置?哪些配...

2018-12-07 14:43:00 391

转载 bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar

[root@master hadoop-3.1.1]# bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar An example program must be given as the first argument.Valid program names are: aggregatewordc...

2018-12-07 14:12:00 1166

转载 hadoop-mapreduce-examples Hadoop实例

[root@master hadoop-3.1.1]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jarAn example program must be given as the first argument.Valid program names are: aggregatewo...

2018-12-07 13:50:00 1378

转载 Hadoop 3.1.1 安装部署手册

安装基于CentOS 7 安装,系统非最小化安装,选择部分Server 服务,开发工具组。全程使用root用户,因为操作系统的权限、安全,在启动时会和使用其它用户有差别。Step 1:下载hadoop.apache.org选择推荐的下载镜像结点;https://hadoop.apache.org/releases.htmlStep 2:下载JDKhttp://www.or...

2018-12-07 13:42:00 235

转载 Hadoop 3.1.1+Spark 2.4 安装部署手册

Spark安装Spark2.1.0完全分布式环境搭建:MASTER节点:1.下载文件:wget -O "spark.tgz" "http://d3kbcqa49mib13.cloudfront.net/spark.tgz"2.解压并移动至相应的文件夹;tar -xvf spark.tgzmv spark /opt3.修改相应的配置文件:(1)vi /etc/profie#Sp...

2018-12-07 13:41:00 559

转载 Spark中Transformations、Actions

解释narrow transformation和wide transformation的区别掌握map flatmap filter coalesce列举两种wide transformation列举Spark pipeline中的4种常见actionTransformationsnarrow transformation只在worker node 本地执行操作,不需要...

2018-12-07 13:39:00 119

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除