大数据
平揽星尘
这个作者很懒,什么都没留下…
展开
-
Flume安装配置
Flume安装配置简介安装配置简介Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume是一种分布式、可靠和可用的服务,用于高效地收集、聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有鲁棒性和容错性,具有可调的可靠性机制和多种故障转移和恢复机制。它使用了一个简单的、可扩展的数据模型,允许在线分析应用程序。安装配置...原创 2018-12-24 18:31:19 · 103 阅读 · 0 评论 -
大数据_Elastic Stack
大数据_Elastic StackBeatsFilebeat架构部署运行模块Logstash构建在开源基础之上,Elastic Stack 让您能够安全可靠地获取任何来源、任何格式的数据,并且实时地对数据进行搜索、分析和可视化。官方网站:https://www.elastic.co/cn/products/BeatsBeats 是一个面向轻量型采集器的平台,这些采集器可从边缘机器向 Log...原创 2020-07-27 09:04:13 · 127 阅读 · 0 评论 -
大数据_MR开发示例
大数据_MR开发示例引入依赖封装对象工具类预处理分析获取模型数据导出jar包引入依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-core</artifactId> <version>1.2.1</version...原创 2020-07-27 09:06:37 · 282 阅读 · 0 评论 -
大数据_网络日志流量分析案例
大数据_网络日志流量分析案例技术和架构数据处理流程系统的架构数据展现数据采集nginx日志数据内容样式Flume配置数据预处理目的技术和架构数据处理流程网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤:1、数据采集数据采集概念,目前行业会有两种解释:一是数据从无到有的过程(web服务器打印的日志、自定义采集的日志等)叫做数据采集...原创 2020-07-27 09:06:53 · 1035 阅读 · 1 评论 -
大数据_Sqoop
大数据_Sqoop简述sqoop1与sqoop2区别架构Sqoop安装Sqoop的数据导入MySQL表导入HDFSMySQL表导入HIVE指定数据导入增量导入Sqoop的数据导出hdfs导出到mysql简述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系 ...原创 2020-07-27 09:08:40 · 186 阅读 · 0 评论 -
大数据_Azkaban
大数据_Azkaban需求常见工作流调度系统简介安装编译Azkaban 单服务模式安装与使用Azkaban 两个服务器模式安装与使用实战Command 类型单一 Job 示例Command 类型多 Job 示例HDFS 操作任务MapReduce 任务Hive 脚本任务Azkaban 的定时任务需求一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序java程序mapr...原创 2020-07-27 09:12:58 · 129 阅读 · 0 评论 -
大数据_Flume
大数据_Flume简介架构案例监听网络采集目录到 HDFS采集文件到HDFS监听文件Agent 级联简介1、Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。2、Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到 的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中3、一般的采集需...原创 2020-07-27 09:10:01 · 76 阅读 · 0 评论 -
大数据_Hive
大数据_Hive数据仓库数据库与数据仓库的区别数仓的分层架构Hive简介架构Hive交互方式基本操作英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环 境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开...原创 2020-07-27 09:09:36 · 116 阅读 · 0 评论 -
大数据_Hadoop
大数据_Hadoop简述架构模型1.x版本2.x版本HDFS简述架构HDFS 文件副本和 Block 块存储HDFS 的元信息和 SecondaryNameNodeHDFS 文件写入过程HDFS 文件读取过程HDFS 的 API 操作POM依赖获取 FileSystem 的几种方式遍历 HDFS 中所有文件下载文件到本地HDFS 上创建文件夹HDFS 文件上传伪造用户小文件合并MapReduce简...原创 2020-07-27 09:09:21 · 190 阅读 · 0 评论 -
ETL_Kettle
ETL_Kettle简介介绍目录文件简介介绍1、ETL是数据抽取、转换、加载2、Spoon是图形界面接口3、Kettle包含job和transformation两种脚本4、Kettle依赖java环境运行目录文件Carte.bat/sh :启动集群命令Encr.bat/sh :加密算法Import.bat/sh :导入命令Kitchen.bat/sh :运行job的命令P...原创 2020-07-27 08:59:02 · 526 阅读 · 0 评论