大数据
文章平均质量分 75
米泽玄師
这个作者很懒,什么都没留下…
展开
-
大数据学习15之spark streaming入门
一、概述spark官网Documentation->Latest Release->Programming Guides->Spark StreamingSpark 流是核心 Spark API 的扩展,可实现对实时数据流的可缩放、高吞吐量、容错流处理。可以从许多源(如Kafka、Kinesis 或 TCP 套接字)引入数据,并且可以使用使用高级函数(如mapreduce 、join 和 window)表示的复杂算法进行处理。最后,处理后的数据可以推送到文件系统、数据库和实时仪表板。原创 2022-03-07 21:33:01 · 1822 阅读 · 0 评论 -
大数据学习14之实战环境搭建
文章目录1.JDK安装2.Scala安装1.下载2.解压3.配置系统环境变量4.检查是否安装成功3.Maven安装1.下载2.解压3.配置系统环境变量4.检查是否安装成功5.修改其conf目录下的settings.xml配置文件4.Hadoop安装5.Zookeeper安装6.HBase安装7.Spark安装8.IDEA+Maven+Spark Streaming1.JDK安装略2.Scala安装1.下载官网->Download->Or are you looking for prev原创 2021-12-20 22:21:59 · 2193 阅读 · 0 评论 -
大数据学习13之分布式事件流平台Kafka——整合Flume和Kafka完成实时数据采集
1.流程图Flume==> Kafka ==>Spark Streaming原创 2021-06-06 21:20:22 · 365 阅读 · 1 评论 -
大数据学习12之分布式事件流平台Kafka——Kafka API编程
IDEA+Maven构建开发环境新建scala项目修改scala版本添加kafka依赖artifactId是scala版本,version是kafka版本,可以通过$KAFKA_HOME来查看。新建java源码包,并将其目录标注修改为蓝色源码目录标注。在java包下新建com.imooc.spark.kafka包Producer API的使用Consumer API的使用...原创 2021-05-30 21:49:33 · 263 阅读 · 3 评论 -
大数据学习11之分布式事件流平台Kafka——Kafka容错性测试
查看所有topic的详细信息kafka-topics.sh --describe --zookeeper hadoop000:2181 --topic hellp-replicated-topicbroker.id是2的副本是主副本[hadoop@hadoop000 config]$ kafka-topics.sh --describe --zookeeper hadoop000:2181 --topic hellp-replicated-topicTopic:hellp-replicated-t原创 2021-04-18 22:14:23 · 192 阅读 · 0 评论 -
大数据学习10之分布式事件流平台Kafka——Kafka部署及使用
文章目录单节点单Broker部署及使用单节点多Broker部署及使用多节点多Broker部署及使用准备:1.下载zookeeper,解压,并配置到系统环境变量中~/.bash_profile中port ZK_HOME=/home/hadoop/app/zookeeper-3.4.5-cdh5.7.0export PATH=$ZK_HOME/bin:$PATHsource ~/.bash_profile使其生效2.home/hadoop/app/zookeeper-3.4.5-cdh5.7.0原创 2021-04-18 21:53:08 · 375 阅读 · 0 评论 -
大数据学习9之分布式事件流平台Kafka——Kafka概述,架构和核心概念
文章目录概述架构概述Kafka 是一个分布式流式平台,它有三个关键能力订阅发布流事件,包括持续从其他系统导入导出数据以容错的方式存储事件流实时流处理架构Kafka 作为消息系统,它有三个基本组件内容转自睡魔的谎言Producer : 发布消息的客户端Broker:存储消息的客户端Consumer : 消费者从 Broker 中读取消息其中,Kafka 运行在一个或多个数据中心的服务器上作为集群运行Kafka 集群存储消息记录的目录被称为 topics每一条消息记录包含三个原创 2021-04-04 22:24:38 · 251 阅读 · 1 评论 -
大数据学习8之分布式日志收集框架Flume——Flume实战应用之将A服务器上的日志实时采集到B服务器
将A服务器上的日志实时采集到B服务器文章目录将A服务器上的日志实时采集到B服务器(1)新建服务器A的flume conf配置文件exec-memory-avro.conf(2)新建服务器B的flume conf配置文件avro-memory-logger.conf(3)先启动服务器B的flume agent avro-memory-logger(4)在启动服务器A的flume agent exec-memory-avro(5)测试跨节点进行传输一般采用avro sink技术选型:服务器A: exe原创 2021-04-04 21:40:21 · 195 阅读 · 0 评论 -
大数据学习7之分布式日志收集框架Flume——Flume实战应用之监控一个文件实时采集新增的数据输出到控制台
监控一个文件实时采集新增的数据输出到控制台Agent选型: exec source +memory channel + logger sink文章目录监控一个文件实时采集新增的数据输出到控制台(1)在/home/hadoop/data目录下新建data.log文件(2)到$FLUME_HOME/conf目录下创建配置文件exec-memory-logger.conf(3)启动agent(4)通过往监控文件追加数据进行测试扩展:如果要监控一个文件实时采集新增的数据,做离线处理,应该输出到HDFS,可以使原创 2021-04-04 16:26:29 · 355 阅读 · 0 评论 -
大数据学习6之分布式日志收集框架Flume——Flume实战应用之从指定的网络端口采集数据输出到控制台
从指定的网络端口采集数据输出到控制台进入官网,查看文档,setting up an agent,看到a simple example使用Flume的关键就是写flume的agent配置文件1. 配置source2. 配置channel3. 配置sink4. 把以上三个组件串起来(1)例如:写一个example.conf配置文件,放置到flume的conf文件夹下# example.conf: A single-node Flume configuration# Name the comp原创 2021-04-04 15:29:42 · 354 阅读 · 0 评论 -
大数据学习5之分布式日志收集框架Flume——Flume环境部署
Flume环境部署Flume实战原创 2021-03-21 21:41:44 · 183 阅读 · 0 评论 -
大数据学习4之分布式日志收集框架Flume——背景介绍与架构及核心组件说明
业务现状分析问题:WebServer/Application Server分散在各个机器上,想用大数据平台Hadoop进行统计分析,日志如何收集到Hadoop平台上?shell脚本cp到hadoop集群的机器上,再通过hadoop的 fs -put 将日志传到HDFS上。问题1:容错如何做监控?如何server上传到hadoop集群上的时候某一台机器断掉了。问题2:高延时采用cp的方式执行的话,必须要指定一个间隔的时间,时效性不是太好。问题3:压缩原始日志一般情况下都是txt文本格式的,直接原创 2021-03-07 17:34:00 · 493 阅读 · 1 评论 -
大数据学习3之初识实时流处理
初识实时流处理一、业务现状分析二、实时流处理产生背景三、实时流处理概述四、离线计算与实时计算对比五、实时流处理框架对比六、实时流处理架构与技术选型七、实时流处理在企业中的应用一、业务现状分析二、实时流处理产生背景三、实时流处理概述四、离线计算与实时计算对比五、实时流处理框架对比六、实时流处理架构与技术选型七、实时流处理在企业中的应用...原创 2021-03-07 16:15:21 · 324 阅读 · 1 评论 -
大数据学习2——环境的搭建之linux环境及软件版本介绍+版本升级与环境变量的改变
创建目录需要在linux的hadoop用户的根目录(/home/hadoop)上创建app,data,lib,software,source目录。source:存放框架源码data :存放测试数据lib:存放开发的jar包software:存放软件安装包app:存放所有安装的软件[hadoop@hadoop000 ~]$ lltotal 100drwxrwxr-x 13 hadoop hadoop 4096 Oct 22 2017 appdrwxrwxr-x 3 hadoop原创 2021-02-28 21:13:29 · 362 阅读 · 0 评论 -
大数据学习1——环境的搭建之OOTB环境的使用
大数据学习之OOTB环境的使用下载OOTB环境;在VMware Workstation中打开,用户密码hadoop,网络未连接;从hadoop普通用户切换到root用户;sudo -i切换目录; cd /etc/sysconfig/network-scripts/5. 删除ifcfg-lo文件 (千万不要) rm ifcfg-lo查看本机IP地址并拷贝网卡mac地址;ip addr00:0c:29:6d:fd:4d/etc/sysconfig/netw原创 2021-02-28 17:59:31 · 2301 阅读 · 5 评论 -
hadoop学习之HDFS API-2-通过编写java接口操作hdfs
1. 创建文件夹工程的test包中java->com.imooc.bigdata->hadoop.hdfs.HDFSApp注意包:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import java.net.URI;/** * 使用JAVA API操作HDFS文件系统 * 1)创建Config原创 2020-06-12 18:18:01 · 316 阅读 · 0 评论 -
hadoop学习之使用HDFS API的方式来操作HDFS文件系统-1-项目环境
IDEA中:1.创建工程不要选错差不多就是这个亚子2.添加hadoop依赖包 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.0-cdh5.15.1</version> </dependency>但是原创 2020-06-11 19:46:58 · 238 阅读 · 0 评论 -
hadoop学习之HDFS命令行操作
[root@hadoop000 ~]# hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [.原创 2020-06-09 22:05:18 · 374 阅读 · 0 评论 -
hadoop学习之hadoop安装--HDFS安装
拷贝本地安装包hadoop-2.6.0-cdh5.15.1.tar.gz到服务器的software安装包目录使用gitbash scp此时服务器端的情况:原创 2020-06-09 19:25:21 · 435 阅读 · 0 评论 -
hadoop学习之hadoop环境搭建
在学习中使用的hadoop的版本使用的hadoop相关版本:CDHCDH相关软件包下载地址:http://archive.cloudera.com/cdh5/cdh/5/链接hadoop使用版本:hadoop-2.6.0-cdh5.15.1Hive使用版本:hive-1.1.0-cdh5.15.1hadoop下载:wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.1.tar.gz此外的补充说明:Hadoop/H原创 2020-06-08 21:58:30 · 241 阅读 · 0 评论 -
hadoop学习之初始环境搭建2
官网地址:hadoop.apache.org->getting started:阅读文档HDFS(Hadoop Distributed File System)连接创建文件操作目录如何从普通用户切换到root用户???答:如何从root用户切换到普通用户???答:查看centos版本的方法hadoop000为hostname一般使用centos6.4/7需要配置的是hosts哦映射ip地址和主机名,可以用主机名进行访问如何修改hostname?查看主原创 2020-06-07 20:48:35 · 154 阅读 · 0 评论 -
hadoop学习之初始环境1
首先虚拟机中centos系统,且能联网可以使用secureCRT工具在本机操作centos系统。建立session连接。原创 2020-06-07 15:30:14 · 151 阅读 · 0 评论