2020年02月_fa124607857

08月 07月 06月 05月 02月 01月

原创网站日志分析整体技术流程及系统架构

网站分析意义网站分析，可以帮助网站管理员、运营人员、推广人员等实时获取网站流量信息，并从流量来源、网站内容、网站访客特性等多方面提供网站分析的数据依据。从而帮助提高网站流量，提升网站用户体验，让访客更多的沉淀下来变成会员或客户，通过更少的投入获取最大化的收入。事实上网站分析设计的内容非常广泛，由很多部分组成。每一部分都可以单独作为一个分析项目，如下所示：首先，网站分析是网...

2020-02-28 16:02:58 1188

linux的shell编程Shell 是一个用 C 语言编写的程序，通过 Shell 用户可以访问操作系统内核服务。它类似于 DOS 下的 command 和后来的 cmd.exe。Shell 既是一种命令语言，又是一种程序设计语言。Shell script 是一种为 shell 编写的脚本程序。 Shell 编程一般指 shell脚本编程，不是指开发 shell 自身。Shell 编程跟 ...

2020-02-27 11:28:19 245

原创 hive的一些优化

Hive的优化优化有很多种方法比如: join sql 数据倾斜数据压缩方式和存储格式表的优化:Join:1）小表Join大表，将key相对分散，并且数据量小的表放在join的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用Group让小的维度表（1000条以下的记录条数）先进内存。在map端完成reduce。selectcount(distinct...

2020-02-24 14:18:21 249

原创 kafka的key为null时如何存储?

kafka的key为null时如何存储?我们都知道，kafka producer发送消息的时候，可以指定key，这个key的作用是为消息选择存储分区，key可以为空，当指定key且不为空的时候，kafka是根据key的hash值与分区数取模来决定数据存储到那个分区，那么当key为null的时候，kafka又是如何存储的呢？可能很多人都会说随机选择一个分区进行存储，但是具体是怎么实现的呢？虽然可...

2020-02-06 15:16:25 3727

转载 Spark工作原理

Spark工作原理Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势：1.运行速度快,Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。官方提供的数据表明，如果数据...

2020-02-03 16:50:33 340

jdk18_linux.zip

linux版本的jdk1.8安装包,亲测有效,一次下载,终身有效.

2019-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

fa124607857的博客

原创网站日志分析整体技术流程及系统架构

原创 linux的shell基本编程

原创 hive的一些优化

原创 kafka的key为null时如何存储?

转载 Spark工作原理

jdk18_linux.zip

空空如也

原创 网站日志分析整体技术流程及系统架构

原创 linux的shell基本编程

原创 hive的一些优化

原创 kafka的key为null时如何存储?

转载 Spark工作原理

jdk18_linux.zip

空空如也

原创网站日志分析整体技术流程及系统架构