- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 网站日志分析整体技术流程及系统架构
网站分析意义网站分析,可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息,并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量,提升网站用户体验,让访客更多的沉淀下来变成会员或客户,通过更少的投入获取最大化的收入。事实上网站分析设计的内容非常广泛,由很多部分组成。每一部分都可以单独作为一个分析项目,如下所示:首先,网站分析是网...
2020-02-28 16:02:58 1188
原创 linux的shell基本编程
linux的shell编程Shell 是一个用 C 语言编写的程序, 通过 Shell 用户可以访问操作系统内核服务。它类似于 DOS 下的 command 和后来的 cmd.exe。Shell 既是一种命令语言,又是一种程序设计语言。Shell script 是一种为 shell 编写的脚本程序。 Shell 编程一般指 shell脚本编程,不是指开发 shell 自身。Shell 编程跟 ...
2020-02-27 11:28:19 245
原创 hive的一些优化
Hive的优化 优化有很多种方法 比如: join sql 数据倾斜 数据压缩方式和存储格式表的优化:Join:1)小表Join大表,将key相对分散,并且数据量小的表放在join的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用Group让小的维度表(1000条以下的记录条数)先进内存。在map端完成reduce。selectcount(distinct...
2020-02-24 14:18:21 249
原创 kafka的key为null时如何存储?
kafka的key为null时如何存储?我们都知道,kafka producer发送消息的时候,可以指定key,这个key的作用是为消息选择存储分区,key可以为空,当指定key且不为空的时候,kafka是根据key的hash值与分区数取模来决定数据存储到那个分区,那么当key为null的时候,kafka又是如何存储的呢?可能很多人都会说随机选择一个分区进行存储,但是具体是怎么实现的呢?虽然可...
2020-02-06 15:16:25 3727
转载 Spark工作原理
Spark工作原理Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:1.运行速度快,Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据...
2020-02-03 16:50:33 340
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人