大数据基础
ICoder_Next
数学抽象世界,物理改变世界
展开
-
大数据技术栈——redis的持久化、主从架构、哨兵架构与集群
文章目录1.redis的持久化1.1 RDB持久化方案介绍RDB方案介绍RDB方案优点RDB方案缺点1.2 AOF持久化方案介绍AOF方案介绍:AOF优点:AOF的缺点:AOF方案配置2.redis的主从复制架构第一步:node02与node03服务器安装redis第二步、启动node02与node03机器的redis服务3. redis当中的Sentinel架构(哨兵)第一步:三台机器修改哨兵配...原创 2020-04-15 16:31:51 · 215 阅读 · 0 评论 -
大数据项目——网站流量日志数据分析-架构实现思路
1. 点击流数据模型1.1. 点击流概念点击流(Click Stream)是指用户在网站上持续访问的轨迹。这个概念更注重用户浏览网站的整个流程。用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据(Click Stream Data),它代表了用户浏览网站的整个流程。点击流和网站日志是两个不同的概念,点击流是从用户的角度出发,注重用户浏览网站的整个流程;而网站日...原创 2020-04-03 21:16:24 · 2222 阅读 · 0 评论 -
Hadoop 06——任务调度系统Azkaban、数据库迁移工具Sqoop的使用
文章目录1. Azkaban介绍1.1. 为什么需要Azkaban1. Azkaban介绍1.1. 为什么需要Azkaban一个完整的数据分析系统通常都是由大量任务单元组成shell脚本程序java程序mapreduce程序hive脚本等各任务单元之间存在时间先后及前后依赖关系, 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;例如,我们可能有这样一个需...原创 2020-04-03 10:54:44 · 837 阅读 · 0 评论 -
Hadoop 05——Flume的入门使用
文章目录1. Flume 介绍1.1. 概述1.2. 运行机制1.3. Flume 结构图简单结构复杂结构2. Flume 实战案例2.1. Flume 的安装部署Step 1: 下载解压修改配置文件Step 2: 开发配置文件Step 3: 启动配置文件Step 4: 安装 Telnet 准备测试2.2. 采集案例2.2.3. 采集目录到 HDFS需求思路Step 1: Flume 配置文件St...原创 2020-03-31 23:54:43 · 333 阅读 · 0 评论 -
Hadoop 04——Hive的入门使用(2)
文章目录1. Hive 表操作1.1. Hive 表创建语法1.2. 管理表的操作创建表并指定字段之间的分隔符根据查询结果创建表根据已经存在的表结构创建表查询表的类型1.3. 外部表的操作外部表说明管理表和外部表的使用场景操作案例创建老师表创建学生表加载数据加载数据并覆盖已有数据从hdfs文件系统向表中加载数据(需要提前将数据上传到hdfs文件系统)1.4. 分区表创建分区表语法创建一个表带多个分...原创 2020-03-31 16:28:45 · 260 阅读 · 0 评论 -
Hadoop 04——Hive的入门使用
文章目录1. 什么是数仓1.1. 基本概念1.2. 主要特征1.2.1. 面向主题1.2.2. 集成性1.2.3. 非易失性(不可更新性)1.2.4. 时变性1.3. 数据库与数据仓库的区别1.4. 数仓的分层架构为什么要对数据仓库分层?1.5. 数仓的元数据管理2. Hive 的基本概念2.1. Hive 简介什么是 Hive为什么使用 HiveHive 的特点2.2. Hive 架构2.3. ...原创 2020-03-30 21:43:43 · 214 阅读 · 0 评论 -
Hadoop 03——核心之MapReduce入门(2)-计数器、规约、流量统计、大SQL查询
文章目录1. MapReduce 中的计数器第一种方式第二种方式2. 规约Combiner3. 流量统计需求一: 统计求和Step 1: 自定义**map**的输出**value**对象**FlowBean**Step 2: 定义FlowMapper类Step 3: 定义FlowReducer类Step 4: 程序main函数入口FlowMain需求二: 上行流量倒序排序(递减排序)Step 1:...原创 2020-03-29 15:59:29 · 183 阅读 · 0 评论 -
Hadoop 03——核心之MapReduce入门
文章目录1. MapReduce 介绍1.1 MapReduce 设计构思和框架结构1.2 MapReduce 框架结构2. MapReduce 编程规范Map 阶段 2 个步骤Shuffle 阶段 4 个步骤Reduce 阶段 2 个步骤3. WordCount案例实现与分析Step 1. 数据格式准备Step 2. MapperStep 3. ReducerStep 4. 定义主类, 描述 J...原创 2020-03-28 17:12:49 · 317 阅读 · 0 评论 -
Hadoop 02——核心之HDFS
文章目录Hadoop 02 核心介绍1. HDFS1.1. 设计目标1.2. HDFS 的历史1.3. HDFS的架构1.4. HDFS 文件副本和 Block 块存储1.4.1. 引入块机制的好处1.4.2. 块缓存1.4.3. HDFS 文件权限验证1.5. HDFS 的元数据辅助管理 SecondaryNameNode1.5.1. FsImage 和 Edits 详解1.5.2. fsima...原创 2020-03-27 22:34:18 · 286 阅读 · 0 评论 -
Hadoop01-入门&集群环境搭建——zookeeper以及Hadoop环境搭建、shell编程、ssh免密登录
文章目录内容大数据概述1:Hadoop介绍问题一: 大文件怎么存储?问题二: 大数据怎么计算?问题三: 如何将这些计算任务跑在集群中?Hadoop 的组成2:环境搭建创建虚拟机(具体略了)内存设置集群规划设置ip和Mac地址3:Liux常用的命令3.1 查找命令3.2 用户管理命令4:Linux的Shell编程5.1:三台虚拟机关闭防火墙5.2三台机器关闭selinux5.3 三台机器机器免密码...原创 2020-03-26 15:21:05 · 1410 阅读 · 0 评论 -
网络学习基础——dhcp、ip、NETWORK、GATEWAY、dns等
文章目录1.dhcp:动态获取ip2.网关与ip3.NETWORK:子网掩码4.GATEWAY:网关5.DNS:域名解释服务器6.图解从浏览器发起请求到百度7.图解NAT虚拟网络配置8.图解桥接模式1.dhcp:动态获取ip2.网关与ip路由器相当于一个网关,假如刚开始的时候配置192.168.1.1,然后设置ip为192.168.33.1(2)以后配置该路由的服务器都必须在33这个频段上...原创 2020-03-01 22:00:35 · 2104 阅读 · 0 评论