宫大人-CSDN博客

原创 gztcopy yonghuhuaxiang

第一章项目整体介绍电商平台系统上线运行一段时间后，可以收集到大量的用户行为数据；利用大数据技术进行深入挖掘和分析，可以得到感兴趣的商业指标。而随着大数据技术的深入研究与应用，简单的统计指标已经不能满足业务发展的需求了。企业的关注点，日益聚焦在、如何利用大数据，来为精细化运营和精准营销服务。而要做精细化运营，首先要建立本企业的用户画像。1.1 数据源分析项目所用到的数据源，就是业务系统中收集的数据，保存在MySQL的表中。主要有以下这些表： 用户信息表（t_member） 用户地址表（t_

2020-10-19 08:07:25 641

原创 impalagzt

第1章 Impala的基本概念1.1 什么是ImpalaCloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive，使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点。是CDH平台首选的PB级大数据实时查询分析引擎。1.2 Impala的优缺点1.3 Impala的组成1.4 Impala的运行原理Impala执行查询的具体过程：1）当用户提交查询前，Impala先创建一个负责协调客户端提交的查询的Impalad进程，该进程会向Im

2020-10-18 22:22:28 284 1

原创 kafka高效读写的原因

kafka高效读写的原因1.顺序写磁盘kafka的producer在生产数据的时候会将数据顺序追加到log文件的末端，这样减少了大量的磁头寻址时间，比随机写要快很多2.零拷贝技术kafka中的消费者在读取服务端的数据时，需要将服务器端的磁盘文件通过网络发送到kafka进程，网络发送需要经过几种网络节点。如图所示：传统的读取文件数据并发送到网络的步骤如下（1）操作系统将数据从磁盘文件中读取到内核空间中的页面缓存；（2）应用程序将数据从内核空间读取到用户空间缓冲区；（3）应用程序将读到数据写回

2020-08-23 21:51:07 635

原创 Flume Agent内部流程解析

Fiume内部原理1.首先Flume中的组件最先接收到数据的是Source2.Source在接收到数据后，会把数据包装成Event，并且把数据交给Channel处理3.由ChannelProcessor决定具体怎么交到Channel以及交到哪个Channel4.在ChannelProcessor处理流程的过程中，首先会将事件拿过来发给拦截器（链）。拦截器（链）可以先进行数据的清洗、处理不合格的数据。比较常用的是给数据加一些header。拦截器尽量不要写过重的逻辑，否则会影响流式处理的链条，整个效

2020-06-28 00:49:41 440

原创 Flume事务

Flume事务Flume事务1.put事务2.take事务Flume事务Flume在处理数据的时候，涉及到数据流动的有两个地方。一个是Source向Channel中放数据的时候，涉及到一个数据的发送（put事务）。还一个是Sink从Channel中拉取数据，也涉及到一个数据的发送。当涉及到数据的批量操作时，就会通过事务来保证数据的一致性和完整性。1.put事务流程：Flume在内存中建立以块缓存，所有Source拉来的数据会包装成Event，并在putList中进行积累。到达一定程度的时候（到达一定

2020-06-28 00:11:52 368

原创 Flume概述、安装与部署、两个简单的小案例

Flume3.0概述、安装与部署、两个简单的小案例一：Flume概述1.Flume的定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。所谓的流式架构，简单来说就是数据源源不断的来，并且不停的处理输出，相对于流式架构，有一个静态数据处理，静态数据处理的代表为mapreduce。流式数据处理的主要两个特点,一个是源源不断，另一个是粒度细（按行收集数据），粒度越细，实时性越高Flume的主要作用就是，实时读取服务器本地

2020-06-27 22:04:07 184

原创 kafka开发经验之kafka压力测试，机器数量计算及分区数量计算

kafka开发经验之kafka压力测试，机器数量计算及分区数量计算一：kafka压力测试用Kafka官方自带的脚本，对Kafka进行压测。Kafka压测时，可以查看到哪个地方出现了瓶颈（CPU，内存，网络IO）。一般都是网络IO达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.sh1）Kafka Producer压力测试在kafka的安装目录下的bin目录下有如下两个文件。我们来测试一下bin/kafka-producer-per

2020-06-26 12:54:30 751

原创解决phoenix胖客户端中的异常：client does not have phoenix.schema.isNamespaceMappingEnabled

解决胖客户端中的异常：`Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled在使用phoenix的胖客户端的时候，经常会遇到下面这样的异常。那么如何让解决呢？方式一：把hbase中的hbase-site.xml复制粘

2020-06-23 13:00:33 2042