自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 gztcopy yonghuhuaxiang

第一章 项目整体介绍电商平台系统上线运行一段时间后,可以收集到大量的用户行为数据;利用大数据技术进行深入挖掘和分析,可以得到感兴趣的商业指标。而随着大数据技术的深入研究与应用,简单的统计指标已经不能满足业务发展的需求了。企业的关注点,日益聚焦在、如何利用大数据,来为精细化运营和精准营销服务。而要做精细化运营,首先要建立本企业的用户画像。1.1 数据源分析项目所用到的数据源,就是业务系统中收集的数据,保存在MySQL的表中。主要有以下这些表: 用户信息表(t_member) 用户地址表(t_

2020-10-19 08:07:25 529

原创 impalagzt

第1章 Impala的基本概念1.1 什么是ImpalaCloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。是CDH平台首选的PB级大数据实时查询分析引擎。1.2 Impala的优缺点1.3 Impala的组成1.4 Impala的运行原理Impala执行查询的具体过程:1)当用户提交查询前,Impala先创建一个负责协调客户端提交的查询的Impalad进程,该进程会向Im

2020-10-18 22:22:28 237 1

原创 kafka高效读写的原因

kafka高效读写的原因1.顺序写磁盘kafka的producer在生产数据的时候会将数据顺序追加到log文件的末端,这样减少了大量的磁头寻址时间,比随机写要快很多2.零拷贝技术kafka中的消费者在读取服务端的数据时,需要将服务器端的磁盘文件通过网络发送到kafka进程,网络发送需要经过几种网络节点。如图所示:传统的读取文件数据并发送到网络的步骤如下(1)操作系统将数据从磁盘文件中读取到内核空间中的页面缓存;(2)应用程序将数据从内核空间读取到用户空间缓冲区;(3)应用程序将读到数据写回

2020-08-23 21:51:07 567

原创 Flume Agent内部流程解析

Fiume内部原理1.首先Flume中的组件最先接收到数据的是Source2.Source在接收到数据后,会把数据包装成Event,并且把数据交给Channel处理3.由ChannelProcessor决定具体怎么交到Channel以及交到哪个Channel4.在ChannelProcessor处理流程的过程中,首先会将事件拿过来发给拦截器(链)。拦截器(链)可以先进行数据的清洗、处理不合格的数据。比较常用的是给数据加一些header。拦截器尽量不要写过重的逻辑,否则会影响流式处理的链条,整个效

2020-06-28 00:49:41 376

原创 Flume事务

Flume事务Flume事务1.put事务2.take事务Flume事务Flume在处理数据的时候,涉及到数据流动的有两个地方。一个是Source向Channel中放数据的时候,涉及到一个数据的发送(put事务)。还一个是Sink从Channel中拉取数据,也涉及到一个数据的发送。当涉及到数据的批量操作时,就会通过事务来保证数据的一致性和完整性。1.put事务流程:Flume在内存中建立以块缓存,所有Source拉来的数据会包装成Event,并在putList中进行积累。到达一定程度的时候(到达一定

2020-06-28 00:11:52 316

原创 Flume概述、安装与部署、两个简单的小案例

Flume3.0概述、安装与部署、两个简单的小案例一:Flume概述1.Flume的定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。所谓的流式架构,简单来说就是数据源源不断的来,并且不停的处理输出,相对于流式架构,有一个静态数据处理,静态数据处理的代表为mapreduce。流式数据处理的主要两个特点,一个是源源不断,另一个是粒度细(按行收集数据),粒度越细,实时性越高Flume的主要作用就是,实时 读取服务器本地

2020-06-27 22:04:07 150

原创 kafka开发经验之kafka压力测试,机器数量计算及分区数量计算

kafka开发经验之kafka压力测试,机器数量计算及分区数量计算一:kafka压力测试用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.sh1)Kafka Producer压力测试在kafka的安装目录下的bin目录下有如下两个文件。我们来测试一下bin/kafka-producer-per

2020-06-26 12:54:30 674

原创 解决phoenix胖客户端中的异常:client does not have phoenix.schema.isNamespaceMappingEnabled

解决胖客户端中的异常:`Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled在使用phoenix的胖客户端的时候,经常会遇到下面这样的异常。那么如何让解决呢?方式一:把hbase中的hbase-site.xml复制粘

2020-06-23 13:00:33 1928

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除