张小艺-CSDN博客

原创链表_含义简介

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言缓存是一种提高数据读取性能的技术，在硬件设计、软件开发中都有着非常广泛的应用，比如常见的 CPU 缓存、数据库缓存、浏览器缓存等等。常见的策略有三种：先进先出策略 FIFO（First In，First Out）、最少使用策略 LFU（Least Frequently Used）、最近最少使用策略 LRU（Le

2021-07-02 10:52:52 356

原创数组_含义简介

数组什么是数组数组（Array）是一种线性表数据结构。它用一组连续的内存空间，来存储一组具有相同类型的数据。线性表线性表就是数据排成像一条线一样的结构。常见的线性表结构：数组，链表、队列、栈等。连续的内存空间和相同类型的数据优点：两限制使得具有随机访问的特性缺点：删除，插入数据效率低数组怎么根据下标随机访问的？通过寻址公式，计算出该元素存储的内存地址：a[i]_address = base_address + i * data_type_size为何数组插入和删除低效插入：若有一

2021-07-02 10:42:50 290

原创 Kafka配置-安装使用（单节点单Broker）

部署kafka之前，需先安装zookeeper此案例为：单节点单Brokerzookeeper-3.4.5-cdh5.15.1.tar.gz解压之后，配置环境变量，修改认证文件[root@centos7 conf]# cp zoo_sample.cfg zoo.cfg[root@centos7 conf]# vi zoo.cfg dataDir=/opt/modules/zk_tmp解压kafka_2.11-2.2.0.tgz修改环境变量修改配置文件vim /opt/modules/k

2021-04-30 22:23:46 371 1

原创 Flume-安装配置与测试案例

前置条件：1）Java 1.7+2）Memory 足够3）磁盘空间要足够，需存放收集过来的日志4）目录权限，相应目录需授权下载安装包：https://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.15.1.tar.gz解压至要安装的路径：/opt/modules/设置环境变量：export FLUME_HOME=/opt/modules/apache-flume-1.6.0-cdh5.15.1-binexport PATH=$P

2021-04-30 22:14:47 292 1

原创 RDD（Resilient Distrubuted Dataset）

RDD什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度。IO流和RDD读取数据的区别：IO流只能读取具体的数据格式的数据；RDD可以读取多格式多来源的数据,且RDD不可变，只可返回新的RD

2021-04-30 21:52:29 464 1

原创 Kafka-消费者组

Consumer Group 是 Kafka 提供的可扩展且具有容错性的消费者机制。Consumer Group特性：Consumer Group 下可以有一个或多个 Consumer 实例。这里的实例可以是一个单独的进程，也可以是同一进程下的线程。在实际场景中，使用进程更为常见一些。Group ID 是一个字符串，在一个 Kafka 集群中，它标识唯一的一个 Consumer Group。Consumer Group 下所有实例订阅的主题的单个分区，只能分配给组内的某个 Consumer 实例消费

2021-04-30 21:10:02 1374 1

原创 Kafka-精确处理一次语义

常见的消费处理语义有3种：最多一次（at most once）：消息可能会丢失，但绝不会被重复发送。至少一次（at least once）：消息不会丢失，但有可能被重复发送。精确一次（exactly once）：消息不会丢失，也不会被重复发送。Kafka 默认提供的交付可靠性保障是第二种，即至少一次。Kafka 也可以提供最多一次交付保障，只需要让 Producer 禁止重试即可。这样一来，消息要么写入成功，要么写入失败，但绝不会重复发送。Kafka 是怎么做到精确一次的呢？简单来说，这是通

2021-04-29 13:49:49 509 1

原创 Kafka-拦截器

Kafka 拦截器可以在消息处理的前后多个时点动态植入不同的处理逻辑，比如在消息发送前或者在消息被消费后。Kafka 拦截器分为生产者拦截器和消费者拦截器生产者拦截器允许你在发送消息前以及消息提交成功后植入你的拦截器逻辑；消费者拦截器支持在消费消息前以及提交位移后编写特定逻辑。值得一提的是，这两种拦截器都支持链的方式，即你可以将一组拦截器串连成一个大的拦截器，Kafka 会按照添加顺序依次执行拦截器逻辑。Kafka 拦截器的设置方法是通过参数配置完成的。生产者和消费者两端有一个相同的参数，名

2021-04-29 11:57:07 305

原创 Kafka 理论三---无消息丢失配置

@Kafka一句话概括，Kafka 只对“已提交”的消息（committed message）做有限度的持久化保证。已提交：当 Kafka 的若干个 Broker 成功地接收到一条消息并写入到日志文件后，它们会告诉生产者程序这条消息已成功提交有限度的持久化保证：Kafka 不可能保证在任何情况下都做到不丢失消息。假如你的消息保存在 N 个 Kafka Broker 上，那么这个前提条件就是这 N 个 Broker 中至少有 1 个存活。只要这个条件成立，Kafka 就能保证你的这条消息永远不会丢

2021-04-29 11:40:34 94

原创 Kafka理论二 ---生产者

KafkaKafka的消息组织方式实际上是三级结构：主题-分区-消息主题下的每条消息只会保存在某一个分区中，而不会在多个分区中被保存多份。之所以使用分区的概念而不是直接使用多个主题分区的作用就是提供负载均衡的能力，或者说对数据进行分区的主要原因，就是为了实现系统的高伸缩性（Scalability）。不同的分区能够被放置到不同节点的机器上，而数据的读写操作也都是针对分区这个粒度而进行的，这样每个节点的机器都能独立地执行各自分区的读写请求处理。并且，还可以通过添加新的节点机器来增加整体系统的吞吐量。

2021-04-29 11:35:37 103

原创 Kafka理论（一）

@KafkaKafka是一个分布式的基于发布、订阅模式的消息队列（Message Queue）,主要应用于大数据实时处理领域Kafka 在设计之初就旨在提供三个方面的特性：提供一套 API 实现生产者和消费者；降低网络传输和磁盘存储开销；实现高伸缩性架构。传统消息队列：同步处理异步处理：解耦，缓解压力，发的快，收的慢，可削峰使用消息队列的好处：解耦：允许由独立的扩展或修改两边的处理过程，只要确保他们遵守同样的接口约束可恢复性：系统的一部分组件失效时，不会影响到整个系统。消息队列

2021-04-29 11:25:23 455 3

原创 Flume问题整理

Flume相关问题归纳Flume 的Source、Sink、Channel的作用？①source组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、spooling directory、syslog②Channel组件对采集到的数据进行缓存，可以存放在Memory或File中③Sink组件是用于把数据发送到目的地的组件，目的地包括 avro、HDFS、file、logger还有一些自定义sinkFlume的Channel Selectorcha

2021-04-29 10:35:10 235 1

原创 Flume多路复用及故障转移案例

复制和多路复用：使用Flume-1监控文件变动Flume-1将变动内容传递给Flume-2Flume-2负责存储到HDFS同时Flume-1将变动内容传递给Flume-3Flume-3负责输出到Local FileSystem#mermaid-svg-odydLoMK0Bqr8dQl .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:

2021-04-29 10:30:20 255 2

原创 Flume原理分享

@Flume详细介绍事务：流程图：#mermaid-svg-MXqoLNw8xJn3H6kd .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-MXqoLNw8xJn3H6kd .label text{fill:#333}#mermaid-svg-MXqoLNw8xJn3H6kd .node rect,#me

2021-04-29 10:13:08 187 2

原创 Flume案例分享二（实时监控目录下多个文件）

@Flume实时监控目录下多个文件（新文件）不能监控实时动态的文件每500毫秒扫描一次dir-flume-hdfs.conf# Name the components on this agentdir-flume-hdfs.sources = r1dir-flume-hdfs.sinks = k1dir-flume-hdfs.channels = c1# Describe/configure the sourcedir-flume-hdfs.sources.r1.type = spoold

2021-04-29 09:43:59 619

原创 Flume

@FlumeFlume 传输框架是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式框架，灵活简单。最主要的作用就是实时采集数据传输给HDFS组成部分Source：负责接收数据带Flume Agent的组件，可以处理各种类型、各种格式的日志数据、包括avro、thrift、spooling directory、netcat、syslog、http。Sink：负责不断地轮询Channel中的时间并且批量的移除他们，将这些时间批量写入到存储或

2021-04-29 09:32:03 163