![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
时空鱼
有趣的生活,保持快乐-》
继续旅程,做一个快乐的吃货
展开
-
03、Apache Flume简单案例
案例一:接收telent数据使用网络telent命令向一台机器发送一些网络数据,然后通过flume采集网络端口数据第一步:开发配置文件根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义)配置我们的网络收集的配置文件在flume的conf目录下新建一个配置文件(采集方案)vim /export/servers/apache-flume-1.8.0-bin/conf/...原创 2019-12-06 20:44:34 · 1471 阅读 · 3 评论 -
02、Apache Flume概念和安装
一、Apache Flume1、概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件Flume的核心把数据从数据源(Source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在数据送到目的地(sink)后,flume在删除主键缓存的数据。2、运行机制Flume系统中核心的角色是agent,agent本...原创 2019-12-05 09:32:31 · 1419 阅读 · 1 评论 -
01、Sqoop的介绍和安装
1.Sqoop安装安装sqoop的前提是已经具备java和hadoop的环境。第一步:上传压缩包解压tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha -C /export/servers第二步:在文件里面添加配置cd /export/servers/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/confmv sqo...原创 2019-11-28 14:43:53 · 1446 阅读 · 3 评论 -
14.Hadoop之MapReduce(二)
Shuffle(混洗)shuffle 输入是key value的 listshuffle 输出是key value的listMapReduce计算任务的步骤第1步:InputFormatInputFormat 到hdfs上读取数据将数据传给Split第2步:Split Split将数据进行逻辑切分将数据传给RR第3步:RRRR:将传入的数据转换成一行一行的数据,输出行首字母偏移...原创 2019-11-18 21:01:57 · 1498 阅读 · 3 评论 -
05.cap 原则 面试加分项
CAP原则又称CAP定理,指的是在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)。CAP 原则指的是,这三个要素最多只能同时实现两点,三者不能同时实现,同时P(分区容错性)必须实现。一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(等同于所有节点访问同一份最新的数据副本)可用性(...转载 2019-11-07 21:35:16 · 1507 阅读 · 2 评论 -
04.大数据集群安装部署 (二 ) 安装hadoop 小白必看
(友情提示以下下面创建的路径跟我写的一样操作起来更便捷,同时主机名设置成node01,node02,node03)第一步:上传压缩包并解压文件创建一个文件存放压缩包:mkdir -p /export/soft创建一个文件夹存放解压包:mkdir -p /export/servers解压文件到指定文件中tar -zxvf hadoop-2.6.0-cdh5.14.0.tar....原创 2019-11-04 09:43:23 · 1492 阅读 · 3 评论 -
03.大数据集群安装部署(一) linux环境安装 小白必看
准备一台服务器进行下面操作之后再克隆或者克隆之后进行下面操作然后把相对应的文件远程连接复制到其他服务器中(拷贝多个的时候 scp -r)注意:ip和主机名之后再设置更这个配置里面一样就行了第一步:准备一台服务器克隆第二步:远程连接打开selinux文件vim /etc/selinux/config第三步:关闭防火墙,设置开启不自启/etc/init.d/iptables sto...原创 2019-10-31 21:12:45 · 1482 阅读 · 5 评论 -
02.大数据为什么快
大数据比传统数据快大数据比传统数据快的原因图形介绍:1.传统数据纵向扩展 服务器数量不变,配置越来越高(发生变化,配置有上限) 大数据横向扩展 配置不变,服务器数量越来越多 (发生变化,服务器数量有钱就无上限) 2.传统数据资源(cpu/内存/硬盘)集中大数据资源(cpu/内存/硬盘)分布(前提:同等配置下) 3.传统数据单份...原创 2019-10-31 21:05:39 · 1608 阅读 · 1 评论 -
01.大数据入门知识
大数据 :指数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据。大数据的主要特点:海量化TB到PB级别 多样化 非结构化,半结构化,结构化.. 快速化 处理速度快 高价值 快速分析下发挥更高的数据价值大数据能做什么:1.海量数据快速查询2.海量数据的存储(数据量大,单个大文件)3.海量数据快速计算...原创 2019-10-25 14:42:28 · 1406 阅读 · 1 评论