![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
qq_42514129
猛兽总是独行,牛羊才成群结队。
展开
-
hadoop_day04
Apache Flume 1.flume介绍: flume是cloudera提供的一款高性能,高可用,分布式的能够完成海量日志的采集,传输和聚合的软件 2.flume核心功能: flume能够收集数据源(source)下的数据,并下沉到指定目的地(sink);为了保证数据不发生失,flume 会将采集数据先放到缓存(channel)中,只有文件正在到达目的地了才将数据从缓存中清除 3.flum...原创 2019-01-17 15:49:50 · 154 阅读 · 0 评论 -
hadoop_day05
Hive 1.hive简介: hive是基于hadoop的一个数据仓库工具,它可以将结构化数据文件映射为一张数据库表,并提供hive SQL查询功能;hive的本质是将hive SQL转化为MapReduce程序;使用hive来完成离线数据分析,比直接使用MapReduce开发效率高 2.hive与hadoop的关系: hive利用HDFS存储结构化数据(利用mysql存储元数据),利用Map...原创 2019-01-18 15:37:39 · 350 阅读 · 0 评论 -
hadoop_day01
大数据介绍 1.数据流转流程: 数据采集-->数据存储-->数据计算-->数据分析-->数据展示 2.实时,离线数据分析系统 按照数据分析的时效性,通常会把大数据分析系统分成实时系统和离线系统两种;实时系统对数据的实时要求非常高,而离线系统相对来说,实时性要求不高 3.js自调用匿名函数 格式: (function(){})() eg: (function(x){ ...原创 2019-01-14 12:06:50 · 146 阅读 · 0 评论 -
hadoop_day02
hadoop介绍 1.hadoop的概念: hadoop是apache下的一个开源软件框架,hadoop允许使用简单的编程模型来完成大量计算机集群下的大量数据的分布式处理 狭义上:hadoop单指apache下的产品 * HDFS(hadoop分布式文件系统): 解决海量数据存储问题 * YARN(任务调度和资源管理框架): 解决海量数据运算时的资源调度问题 * MAPREDUCE(分布式运算编...原创 2019-01-15 13:00:04 · 168 阅读 · 0 评论 -
hadoop_day03
MapReduce 1.MapReduce介绍: MapReduce是一个分布式运算程序的编程框架,它采用分而治之的思想解决海量数据的计算问题;MapReduce的核心功能是将用户编写的业务逻辑代码和它自带的默认组件整合成一个完整的分布式运算程序,并发运行在hadoop集群上 2.MapReduce程序运行阶段: * Map阶段:局部并行计算(要求计算的程序之间不能太强的依赖关系) * Redu...原创 2019-01-16 11:41:24 · 130 阅读 · 0 评论 -
hadoop_day07
sqoop Apache Sqoop 介绍: Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它能将数据从关系型数据导入到HDFS,Hive;也能将HDFS数据导出到关系型数据库 archives 1.Apache Archives 介绍: Archives可以有效的将多个小文件归档为一个文件,archives本质是运行一个MapReduce归档任务;HDFS只使用于存储大...原创 2019-01-22 15:58:17 · 130 阅读 · 0 评论 -
hadoop_day08
MapReduce工作机制 1.map阶段深度解析: * 首先InputFormat根据getSplits()方法(由FileInputFormat实现),对待处理目录下的所有待处理文件默认按照分块block的大小(128M)对待处理文件进行逻辑拆分,最终返回的splits的个数就是YARN开启的mapTask的个数; * 每个mapTask使用TextInputFormat中的RecordR...原创 2019-01-22 15:59:06 · 102 阅读 · 0 评论 -
hadoop_day09
Vmware和Linux 1.Vmware网络模式 * Bridged模式(桥接) 宿主机物理网卡(主机网卡)和虚拟网卡通过VMnet0虚拟交换机进行桥接,由宿主机的上网模式来决定桥接模式桥接的是无线网卡还是有线网卡 * Host-only模式(仅主机) 宿主机和虚拟机通过VMnet1连接,虚拟机只能访问宿主机 * NAT模式(网络地址转换) 虚拟机借助NA(网络地址转换)功能,...原创 2019-01-22 16:02:21 · 91 阅读 · 0 评论 -
hadoop_day06
点击流 1.点击流的概念: 点击流就是用户在网站上持续访问的轨迹,由同一个用户的一系列点击流数据构成用户的点击流轨迹 2.点击流模型: PageViews模型: Pageviews模型关注同一个用户在一次session中,分别浏览了具体的哪些网页,以及每个页面的停留时间 Visits模型: Visits模型关注同一个用户在一次session中,一共浏览了多少个网页,以及停留的总时间 3.数据...原创 2019-01-22 17:58:25 · 138 阅读 · 0 评论