微毂-CSDN博客

原创第9章文件和内容管理

用户必须以系统检索机制能够理解的形式提交他们的需求，以便从这些系统中获取信息。同样，需要一种检索机制，以支持快速识别匹配的数据和信息格式描述/索引文件、结构化和非结构化数据的目录。

2024-04-09 22:16:23 1163

理解数据的内容和结构是实现数据集成成功的关键基本剖析包括:1)数据结构中定义的数据格式和从实际数据中推断出来的格式。2)数据的数量，包括null值、空或默认数据的级别。3)数据值以及它们与定义的有效值集合的紧密联系。4)数据集内部的模式和关系，如相关字段和基数规则。5)与其他数据集的关系。剖析的目标之一是评估数据的质量。对于特定用途的适用性，评估数据时需要记录业务规则，并测量数据满足这些业务规则的程度。

2024-04-08 22:20:28 1422

原创第7章数据安全

制度提供行为准则，但并不能列出所有可能的意外情况。细则是对制度的补充，并提供有关如何满足制度意图的其他详细信息。保密等级分类是重要的元数据特征，用于指导用户如何获得访问权限。每个组织都应创建或采用满足其业务需求的分级方案。任何分级方案都应清晰易行，它将包含从最低到最高的一系列密级。例如，从“一般用途”到“绝密”。高度公开的数据泄露事件(其中敏感的个人信息被泄露)日益增多，导致出台了很多与数据相关的法律。聚焦于金融的数据事件促使全球各国政府实施更多的法规。这就产生了新的数据类别，可称为“监管信息”。

2024-04-07 22:38:48 2689 2

原创第6章数据存储操作

DBA为数据库管理系统（DBMS）应用程序建立存储系统，为 NoSQL建立文件存储系统。网络存储管理员和DBA在建立文件存储系统方面都发挥着重要作用。在正常的业务运营中，数据存入存储介质，取决于是要永久性存放还是临时性存放。在真正提供存储空间之前，做好增加额外空间的规划是很重要的。所有项目都应该作第一年运营的初始容量估算，以及未来几年内的空间增长预测。数据存储需求必须考虑与数据保留相关的法规。

2024-04-01 22:18:50 1192

原创第5章数据建模和设计

清晰、准确、完整。

2024-03-23 14:55:25 1791

原创第4章数据架构

最为详细的数据架构设计文件是正式的企业数据模型，包含数据名称、数据属性和元数据定义、概念和逻辑实体、关系以及业务规则。物理数据模型也属于数据架构文件，但物理数据模型是数据建模和设计的产物，而不是数据架构的产物。数据架构的基本组成部分1）数据架构成果，包括不同层级的模型、定义、数据流，这些通常被称为数据架构的构件。2）数据架构活动，用于形成、部署和实现数据架构的目标。3）数据架构行为，包括影响企业数据架构的不同角色之间的协作、思维方式和技能。数据架构的构件数据架构的目标是在业务战略和技术实现之间建立起一

2024-03-21 17:33:23 1056

原创第3章数据治理

1）数据对组织的价值。如果一个组织出售数据，显然数据治理具有巨大的业务影响力。将数据作为最有价值事物的组织（如Facebook、亚马逊）将需要一个反映数据角色的运营模式。对于数据是操作润滑剂的组织，数据治理形式就不那么严肃了。2）业务模式。分散式与集中式、本地化与国际化等是影响业务发生方式以及如何定义数据治理运营模式的因素。与特定IT策略、数据架构和应用程序集成功能的链接，应反映在目标运营框架设计中（图3- 6）。3）文化因素。

2024-03-21 14:21:08 1027

原创第2章数据处理伦理

简单来说，伦理是建立在是非观念上的行为准则。伦理准则通常侧重于公平、尊重、责任、诚信、质量、可靠性、透明度和信任等方面。数据处理伦理指如何以符合伦理准则的方式获取、存储、管理、使用和销毁数据。核心概念：对人的影响、滥用的可能、数据的经济价值定义：数据处理伦理是指如何以符合道德准则及社会责任的方式去获取、存储、管理、解释、分析、应用和销毁数据。

2024-03-20 17:41:21 465

原创第1章数据管理

数据管理是为了交付、控制、保护并提升数据和信息资产的价值，在其整个生命周期中制定计划、制度、规程和实践活动，并执行和监督的过程。

2024-03-20 17:14:46 1057

原创 5、Flink Source（mysql)

Flink 连接MySQL做维表，定时刷新，并与实时流做join

2021-11-20 23:25:05 3051

原创 3、Flink Source(文件、socket、集合）

flink基于文件，socket，集合的读取方式；主要适用于测试

2021-11-20 23:01:54 910

原创第二部分控制结构和函数

第二部分控制结构和函数第1节 if 表达式Scala中 if 表达式有返回值。如果if 和 else 的返回值类型不一样，那么就返回两个返回值类型公共的父类。-- if 语句有返回值val x = 10val s = if (x > 0) 1 else -1-- 多分支if 语句 val s = if (x==0) 0else if (x > 1) 1 else 0-- 如果返回的类型不一致就返回公共的父类val s = if (x > 0)

2021-04-01 10:40:07 378

原创第一部分 Scala基础

第一部分 Scala基础第1节 Scala语言概况1.1 Scala语言起源马丁·奥德斯基(Martin Odersky)是编译器及编程的狂热爱好者。主流JVM的Javac编译器就是马丁·奥德斯基编写出来的，JDK5.0、JDK8.0的编译器就是他写的。长时间的编程之后，他希望发明一种语言，能够让写程序这样的基础工作变得高效，简单。当接触到Java语言后，对Java这门语言产生了极大的兴趣，所以决定将函数式编程语言的特点融合到Java中，由此发明了Scala。1.2 Scala语

2021-04-01 10:33:58 543

原创 mac 下安装Python的常见问题

安装conda后终端出现的(base)字样去除方法使用anaconda很方便。但是在mac或linux下安装新版的anaconda后终端出现如下 (base)字样(终端显示成这样是因为shell使用了zsh并使用oh-my-zsh样式af-magic)让强迫症十分不爽！于是从网上找去除方法，果然也有人遇到同样困扰。燃鹅都是复制过来changeps1: False复制过去的解决方法并没有真正解决问题每次终端输入：conda deactivate或者在.bash_prof

2021-03-28 11:14:04 674

原创第四节电商分析之广告业务

电商分析之广告业务互联网平台通行的商业模式是利用免费的基础服务吸引凝聚大量用户，并利用这些用户资源开展广告或其他增值业务实现盈利从而反哺支撑免费服务的生存和发展。广告收入不仅成为互联网平台的重要收入之一，更决定了互联网平台的发展程度。电商平台本身就汇聚了海量的商品、店铺的信息，天然适合进行商品的推广。对于电商和广告主来说，广告投放的目的无非就是吸引更多的用户，最终实现营销转化。因此非常关注不同位置广告的曝光量、点击量、购买量、点击率、购买率。第1节需求分析事件日志数据样例：{ "l

2021-03-12 16:20:12 400

原创 Tez快速入门

Tez快速入门Hortonworks在2014年左右发布了Stinger Initiative，并进行社区分享，为的是让Hive支持更多SQL，并实现更好的性能。让Hive的查询功能更强大。增加类似OVER子句的分析功能，支持WHERE子查询，以及调整Hive的样式系统更多的符合标准的SQL模型; 优化Hive的请求执行计划，增加 Task 每秒处理记录的数量; 引入新的列式文件格式(ORC文件)，提供一种更现代、高效和高性能的方式来储存Hive数据; 引入新的runtime框架——Tez，消

2021-03-12 16:09:46 738

原创 DataX快速入门

DataX快速入门1.1、DataX概述及安装DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、 TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。概述为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时

2021-03-12 16:07:55 697

原创第三章电商分析之会员活跃度

电商分析之会员活跃度第 1 节需求分析会员数据是后期营销的很重要的数据。网店会专门针对会员进行一系列营销活动。电商会员一般门槛较低，注册网站即可加入。有些电商平台的高级会员具有时效性，需要购买VIP会员卡或一年内消费额达到多少才能成为高级会员。计算指标:新增会员:每日新增会员数活跃会员:每日，每周，每月的活跃会员数会员留存:1日，2日，3日会员留存数、1日，2日，3日会员留存率指标口径业务逻辑:会员:以设备为判断标准，每个独立设备认为是一个会员。Androi..

2021-03-12 16:03:41 5099

原创第一章数据仓库理论

数据仓库理论第1节数据仓库1.1 什么是数据仓库1988年，为解决全企业集成问题，IBM公司第一次提出了信息仓库(Information Warehouse)的概念。数据仓库的基本原理、技术架构以及分析系统的主要原则都已确定，数据仓库初具雏形。1991年Bill Inmon(比尔·恩门)出版了他的第一本关于数据仓库的书《Building the Data Warehouse》，标志着数据仓库概念的确立。书中指出，数据仓库(Data Warehouse)是一个面向主题的(Subject Or

2021-03-09 17:44:42 800

原创 10 Kafka集群与运维

Kafka集群与运维10.1 集群应用场景10.1.1 消息传递Kafka可以很好地替代传统邮件代理。消息代理的使用有多种原因(将处理与数据生产者分离，缓冲未处理的消息等)。与大多数邮件系统相比，Kafka具有更好的吞吐量，内置的分区，复制和容错功能，这使其成为大规模邮件处理应用程序的理想解决方案。根据我们的经验，消息传递的使用通常吞吐量较低，但是可能需要较低的端到端延迟，并且通常取决于Kafka提供的强大的持久性保证。在这个领域，Kafka与ActiveMQ或 RabbitMQ等传统消息传

2021-03-07 23:54:53 399 1

原创 9 Kafka高级特性解析-延时队列和重试队列

9 Kafka高级特性解析-延时队列和重试队列9.1 延时队列两个follower副本都已经拉取到了leader副本的最新位置，此时又向leader副本发送拉取请求，而 leader副本并没有新的消息写入，那么此时leader副本该如何处理呢?可以直接返回空的拉取结果给 follower副本，不过在leader副本一直没有新消息写入的情况下，follower副本会一直发送拉取请求，并且总收到空的拉取结果，消耗资源。Kafka在处理拉取请求时，会先读取一次日志文件，如果收集不到足够多(fet

2021-03-07 23:46:27 825 1

原创 8 Kafka高级特性-稳定性

8 稳定性8.1 事务一、事务场景1. 如producer发的多条消息组成一个事务这些消息需要对consumer同时可见或者同时不可见。2. producer可能会给多个topic，多个partition发消息，这些消息也需要能放在一个事务里面，这就形成了一个典型的分布式事务。3. kafka的应用场景经常是应用先消费一个topic，然后做处理再发到另一个topic，这个 consume-transform-produce过程需要放到一个事务里面，比如在消息处理或者发送的过程中...

2021-03-07 23:41:09 534

原创 7 Kafka高级特性-物理存储

物理存储7.1 日志存储概述Kafka 消息是以主题为单位进行归类，各个主题之间是彼此独立的，互不影响。每个主题又可以分为一个或多个分区。每个分区各自存在一个记录消息数据的日志文件。图中，创建了一个tp_demo_01主题，其存在6个Parition，对应的每个Parition下存在一个[Topic-Parition]命名的消息日志文件。在理想情况下，数据流量分摊到各个Parition中，实现了负载均衡的效果。在分区日志文件中，你会发现很多类型的文件，如:.index、.timest

2021-03-07 23:32:45 382

原创 6 Kafka高级特性解析-主题与分区

Kafka高级特性解析-主题与分区6.1 主题6.1.1 管理使用kafka-topics.sh脚本:主题中可以使用的参数定义:6.1.1.1 创建主题

2021-03-07 22:59:44 1090 1

原创 5 Kafka高级特性解析-生产者与消费者

Kafka高级特性解析-生产者与消费者5.1 生产者5.1.1 消息发送5.1.1.1 数据生产流程解析1. Producer创建时，会创建一个Sender线程并设置为守护线程。2. 生产消息时，内部其实是异步流程;生产的消息先经过拦截器->序列化器->分区器，然后将消息缓存在缓冲区(该缓冲区也是在Producer创建时创建)。3. 批次发送的条件为:缓冲区数据大小达到batch.size或者linger.ms达到上限，哪个先达到就算哪个。4. 批次发送后，发往指

2021-03-02 10:14:04 524

原创 4 Kafka服务端参数配置

1.4 服务端参数配置$KAFKA_HOME/config/server.properties文件中的配置。1.4.1 zookeeper.connect该参数用于配置Kafka要连接的Zookeeper集群的地址。它的值是一个字符串，使用逗号分隔Zookeeper的多个地址。Zookeeper的单个地址是host:port形式的，可以在最后添加Kafka在Zookeeper中的根节点路径。如:zookeeper.connect=node2:2181,node3:2181,node4:

2021-02-21 21:25:08 315

原创 3 Kafka开发实战

3 Kafka开发实战3.1 消息的发送与接收生产者主要的对象有: KafkaProducer ，ProducerRecord。其中 KafkaProducer 是用于发送消息的类， ProducerRecord 类用于封装Kafka的消息。KafkaProducer 的创建需要指定的参数和含义:其他参数可以从 org.apache.kafka.clients.producer.ProducerConfig 中找到。我们后面的内容会介绍到。消费者生产消息后，需要broker端

2021-02-21 21:24:40 561

原创 2 Kafka安装与配置

2 Kafka安装与配置2.1 Java环境为前提1、上传jdk-8u261-linux-x64.rpm到服务器并安装:rpm -ivh jdk-8u261-linux-x64.rpm2、配置环境变量vim /etc/profile# 生效source /etc/profile# 验证java -version2.2 Zookeeper的安装配置1、上传zookeeper-3.4.14.tar.gz到服务器2、解压到/opttar -zxf zooke

2021-02-21 21:23:53 455

转载 1 Kafka架构和基本概念

1.1 架构和基本概念1.1.1 kafka介绍Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多生产者、多订阅者，基于zookeeper协调的分布式日志系统(也可以当做MQ系统)，常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是：日志收集系统和消息系统。Kafka主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数

2021-02-20 17:03:53 267 1

原创 6 Redis企业实战问题

Redis企业实战问题缓存问题缓存穿透一般的缓存系统，都是按照key去缓存查询，如果不存在对应的value，就应该去后端系统查找(比如 DB)。缓存穿透是指在高并发下查询key不存在的数据，会穿过缓存查询数据库。导致数据库压力过大而宕机解决方案:对查询结果为空的情况也进行缓存，缓存时间(ttl)设置短一点，或者该key对应的数据insert了之后清理缓存。问题:缓存太多空值占用了更多的空间使用布隆过滤器。在缓存之前在加一层布隆过滤器，在查询的时候先去布隆过滤器查询 key 是

2021-02-20 16:56:17 207 1

原创 5 Redis高可用方案

Redis高可用方案“高可用性”(High Availability)通常来描述一个系统经过专门的设计，从而减少停工时间，而保持其服务的高度可用性。单机的Redis是无法保证高可用性的，当Redis服务器宕机后，即使在有持久化的机制下也无法保证不丢失数据。所以我们采用Redis多机和集群的方式来保证Redis的高可用性。1、主从复制Redis支持主从复制功能，可以通过执行slaveof(Redis5以后改成replicaof)或者在配置文件中设置 slaveof(Redis5以后改成replic

2021-02-20 16:51:18 282 1

原创 4 Redis扩展特性

Redis扩展特性1、发布与订阅Redis提供了发布订阅功能，可以用于消息的传输Redis的发布订阅机制包括三个部分，publisher，subscriber和Channel发布者和订阅者都是Redis客户端，Channel则为Redis服务器端。发布者将消息发送到某个的频道，订阅了这个频道的订阅者就能接收到这条消息。频道/模式的订阅与退订subscribe:订阅 subscribe channel1 channel2 ..Redis客户端1订阅频道1和频道2127

2021-02-20 16:42:53 249

原创 3 Redis持久化机制

Redis持久化机制redis是一个内存数据库，数据保存在内存中，但是我们都知道内存的数据变化是很快的，也容易发生丢失。幸好Redis还为我们提供了持久化的机制，分别是RDB(Redis DataBase)和AOF(Append Only File)。Redis持久化是为了快速的恢复数据而不是为了存储数据。注意:Redis持久化不保证数据的完整性。当Redis用作DB时，DB数据要完整，所以一定要有一个完整的数据源Redis数据持久化流程客户端向服务端发送写操作（数据在客户端的内存中）数

2021-02-20 16:34:15 197

原创 2 Redis数据结构及过期机制

Redis数据结构及过期机制Redis介绍Redis单机的安装使用Redis的数据类型及应用场景

2021-02-20 16:30:42 981

原创 1 Redis缓存原理及设计

Redis缓存原理及设计缓存基本思想什么是缓存？缓存原指CPU上的一种高速存储器，它先于内存与CPU交换数据，速度很快。现在泛指存储在计算机上的原始数据的复制集，便于快速访问。在互联网技术中，缓存是系统快速响应的关键技术之一以空间换时间的一种技术(艺术)缓存的使用场景DB缓存，减轻DB服务器压力一般情况下数据存在数据库中，应用程序直接操作数据库。当访问量上万，数据库压力增大，可以采取的方案有:读写分离，分库分表当访问量达到10万、百万，需要引入缓存。将已

2021-02-20 16:18:31 309

原创 5 YARN资源调度

YARN资源调度第 1 节 Yarn架构ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度; NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来⾃ApplicationMaster的命令; ApplicationMaster(am):数据切分、为应⽤程序申请资源，并分配给内部任务、任务监控与容错。 Container:对任务运行环境的抽象，封

2021-02-20 15:31:14 137

原创 4 MapReduce编程框架

MapReduce编程框架第 1 节 MapReduce思想MapReduce思想在⽣活中处可见。我们或多或少都曾接触过这种思想。MapReduce的思想核⼼是分而治之，充分利用了并⾏处理的优势。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，⽽不是⾃己原创。MapReduce任务过程是分为两个处理阶段:Map阶段:Map阶段的主要作用是“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。Map阶段的这些任务可以并行计算，彼此间没有依赖关系。 Reduce阶段:Reduc

2021-02-20 15:26:55 286

原创 1 Impala概述

第 1 部分 Impala概述1.1 Impala是什么Impala是Cloudera提供的一款开源的针对HDFS和HBASE中的PB级别数据进行交互式实时查询(Impala 速度快)，Impala是参照谷歌的新三篇论⽂文当中的Dremel实现而来，其中旧三篇论文分别是 (BigTable，GFS，MapReduce)分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce。Impala最大卖点和最大特点就是快速，Impala中文翻译是⾼角羚羊。1.2 Impala优势回

2021-02-05 16:06:19 199

原创工作流调度系统—Azkaban

工作流调度系统—Azkaban第 1 节概述1.1 工作流调度系统⼀个完整的数据分析系统通常都是由⼤量任务单元组成:shell脚本程序 java程序 mapreduce程序 hive脚本等各任务单元之间存在时间先后及前后依赖关系,为了很好地组织起这样的复杂执行计划，需要⼀个工作流调度系统来调度任务的执行。假如，我有这样一个需求，某个业务系统每天产生20G原始数据，每天都要对其进行处理，处理步骤如下所示:通过Hadoop先将原始数据同步到HDFS上; 借助MapReduce

2021-02-04 22:45:57 441

原创 3 HBase API应用和优化

第三部分 HBase API应用和优化第 1 节 HBase API客户端操作创建Maven⼯程，添加依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.3.1</vers

2021-02-02 22:50:11 246

空空如也

flink SQL over+win

使用flink SQL的内置函数报错No match found for function signature