Auraros
码龄6年
关注
提问 私信
  • 博客:357,010
    357,010
    总访问量
  • 144
    原创
  • 1,189,123
    排名
  • 243
    粉丝
  • 0
    铁粉

个人简介:gdut一个正在艰苦转行的孩子

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-11-07
博客简介:

Auraros的博客

查看详细资料
个人成就
  • 获得296次点赞
  • 内容获得84次评论
  • 获得1,451次收藏
  • 代码片获得2,410次分享
创作历程
  • 104篇
    2020年
  • 40篇
    2019年
成就勋章
TA的专栏
  • 数据结构
    3篇
  • python
  • 数据挖掘技术
    5篇
  • 数学建模算法
    3篇
  • 机器学习
    26篇
  • Hadoop
    1篇
  • Flume
    13篇
  • Yarn
    6篇
  • MR
    7篇
  • HDFS
    18篇
  • Hive
    13篇
  • Zookeeper
    1篇
  • Mysql
    2篇
  • 项目
    1篇
  • 算法
    1篇
  • leetcode
    4篇
  • Java
    13篇
  • 后台
    1篇
  • Linux
    17篇
  • 常见异常和错误
    3篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

186人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

超级详细树讲解三 —— B树、B+树图解+代码

首先很高兴你看到了这篇文章,这篇文章可能会花费你很长很长的时间去看,但是这篇文章包括的内容绝对足够你对树的一个系统性的学习。为什么要写这篇文字呢?因为自己在学习树的时候,有些博客只有图解,有些博客只有代码,在这里我将树的图解和代码都整理在了一起。在每个树都有着对应的图解和代码。相信这篇文字会花费你大量的时间,但是绝对值得。因为全部加在一起太长了,所以分成了三部分去记录:超级详细树讲解一 —— 二叉树、二叉查找树、完全二叉树图解+代码因为博客的排版问题,但是感觉还是比较丑,如果大家想看好看的版本,大家可
原创
发布博客 2020.12.05 ·
1083 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

超级详细树讲解二 —— 平衡二叉树、哈夫曼树图解+代码

超级详细树讲解二 —— 平衡二叉树、哈夫曼树图解+代码首先很高兴你看到了这篇文章,这篇文章可能会花费你很长很长的时间去看,但是这篇文章包括的内容绝对足够你对树的一个系统性的学习。为什么要写这篇文字呢?因为自己在学习树的时候,有些博客只有图解,有些博客只有代码,在这里我将树的图解和代码都整理在了一起。在每个树都有着对应的图解和代码。相信这篇文字会花费你大量的时间,但是绝对值得。因为全部加在一起太长了,所以分成了三部分去记录:超级详细树讲解一 —— 二叉树、二叉查找树、完全二叉树图解+代码因为博客的排版
原创
发布博客 2020.12.05 ·
1196 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

超级详细树讲解一 —— 二叉树、二叉查找树、完全二叉树图解+代码

超级详细树讲解 ——图解+代码首先很高兴你看到了这篇文章,这篇文章可能会花费你很长很长的时间去看,但是这篇文章包括的内容绝对足够你对树的一个系统性的学习。为什么要写这篇文字呢?因为自己在学习树的时候,有些博客只有图解,有些博客只有代码,在这里我将树的图解和代码都整理在了一起。在每个树都有着对应的图解和代码。相信这篇文字会花费你大量的时间,但是绝对值得。代码的github地址:代码传送门pdf的github地址:pdf传送文章目录超级详细树讲解 ——图解+代码树的基本概念二叉树二叉树的定义二叉树首相数
原创
发布博客 2020.12.05 ·
1327 阅读 ·
2 点赞 ·
0 评论 ·
6 收藏

Flume13 聚合组

Flume13 聚合组1) 案例需求:hadoop103 上的 Flume-1 监控文件/opt/module/group.log,hadoop102 上的 Flume-2 监控某一个端口的数据流,Flume-1 与 Flume-2 将数据发送给 hadoop104 上的 Flume-3,Flume-3 将最终数据打印到控制台。2)需求分析:实现步骤准备工作分发 Flume[atguigu@hadoop102 module]$ xsync flume在hadoop102、ha
原创
发布博客 2020.12.01 ·
283 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Flume12 负载均衡

Flume12 故障转移案例需求使用Flume监控一个端口,其sink组中的sink分别对接Flume2 和 Flume3,采用FailoverSinkProcessor,实现故障转移的功能。需求分析实现步骤准备工作在/opt/module/flume/job 目录下创建 group2 文件夹[atguigu@hadoop102 job]$ cd group2/创建 flume-netcat-flume.conf配 置 1 个接收 日 志 文 件 的 source 和 1 个
原创
发布博客 2020.12.01 ·
160 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume11 故障转移

Flume11 负载均衡和故障转移案例需求使用Flume监控一个端口,其sink组中的sink分别对接Flume2 和 Flume3,采用FailoverSinkProcessor,实现故障转移的功能。需求分析实现步骤准备工作在/opt/module/flume/job 目录下创建 group2 文件夹[atguigu@hadoop102 job]$ cd group2/创建 flume-netcat-flume.conf配 置 1 个接收 日 志 文 件 的 source
原创
发布博客 2020.12.01 ·
177 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume10 单数据源和多出口

Flume10 单数据源和多出口案例需求使用Flume-1监控文件变动,Flume-1将变动内容传递给 Flume-2,Flume-2负责存储到HDFS。同时Flume-1将变动内容传递给Flume-3,Flume-3负责输出到Local FileSystem。需求分析实现步骤准备工作在/opt/module/flume/job 目录下创建 group1 文件夹[atguigu@hadoop102 job]$ cd group1/在/opt/module/datas/目录下创建 f
原创
发布博客 2020.12.01 ·
163 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flume9 拓扑结构

Flume9 拓扑结构简单串联这种模式是将多个Flume顺序连接了起来,从最初source开始到最终sink传送的目的存储系统。此模式不建议桥接过多的Flume数量,Flume数量过多不仅会影响传输速率,而且一旦传输过程中某个节点Flume宕机,会影响整个传输系统。复制和多路复用Flume 支持将事件流向一个或多个目的地,这种模式可以将相同数据复制到多个channel中,或者将不同数据分发到不同的channel中,sink可以选择传送到不同的目的地。负载均衡和故障转移Flume支持使用将多
原创
发布博客 2020.12.01 ·
213 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume2 下载安装

Flume2 下载安装Flume 安装地址Flume 官网地址http://flume.apache.org/文档查看地址http://flume.apache.org/FlumeUserGuide.html下载地址http://archive.apache.org/dist/flume/安装部署将 apache-flume-1.7.0-bin.tar.gz 上传到 linux 的/opt/software 目录下,并解压到/opt/module/目录下[atg
原创
发布博客 2020.12.01 ·
151951 阅读 ·
4 点赞 ·
0 评论 ·
17 收藏

Flume8 Agent内部原理

Flume8 Agent内部原理拦截器拦截器是简单的插件式组件,设置在source和channel之间。source接收到的时间,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。flume内置了很多拦截器,并且会定期的添加一些拦截器,在这里列出一些flume内置的,经常使用的拦截器。Timestamp Interceptor(时间戳拦截器)flume中一个最经常使用的拦截器 ,该拦截器的作用是将时间戳插入到flum
原创
发布博客 2020.11.23 ·
305 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume7 事务

Flume7 事务重点:两个事务: Put事务 和 Take事务Put事务应该做的事情:- doPut: 将批量数据先写入临时缓存区putList- doCommit: 检查channel内存队列是否足够合并- doRollback: channel内存空间不足,回滚数据Take事务应该做的事情- doTake: 将数据取到临时缓冲区takeList,并将数据发送到HDFS- doCommit:如果数据全部发送成功,则清除临时缓冲区takeList- doRollback
原创
发布博客 2020.11.23 ·
165 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume6 实时监控目录下的多个追加文件

Flume6 实时监控目录下的多个追加文件Exec source 适用于监控一个实时追加的文件,但不能保证数据不丢失;Spooldir Source 能够保证数据不丢失,且能够实现断点续传,但延迟比较高,不能实时监控;而Taildir Source既能实现断点续传,又可以保证数据不丢失,还能够进行实时监控。案例需求使用Flume监听整个目录实时追加文件,并上传至 HDFS需求分析实验步骤建配置文件 flume-file-logger.conf创建一个文件[atguigu@hadoop1
原创
发布博客 2020.11.23 ·
290 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Flume5 实时监控目录下多个新文件

Flume5 实时监控目录下多个新文件案例需求:使用Flume监听整个目录的文件,并上传至HDFS需求分析:实践步骤创建配置文件 flume-dir-hdfs.conf创建一个文件[atguigu@hadoop102 job]$ touch flume-dir-hdfs.conf打开文件[atguigu@hadoop102 job]$ vim flume-dir-hdfs.conf添加如下内容a3.sources = r3a3.sinks = k3a3.channels
原创
发布博客 2020.11.23 ·
325 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Flume4 实时监控单个追加文件

Flume4 实时监控单个追加文件需求案例需求: 实时监控Hive日志,并上传到HDFS中存在单点故障,因为如果agent故障后,可能会丢失数据需求分析实验步骤第一个先提取日志数据输出到控制台创建 file-flume-logger.conf 文件# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sour
原创
发布博客 2020.11.23 ·
243 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume3 监控端口数据

Flume3 监控端口数据更多整理都在我的github上:Auraros欢迎大家。案例需求使用Flume 监听一个端口,收集该端口数据,并打印到控制台需求分析实现步骤安装 telnet 工具将 rpm 软 件 包 (xinetd-2.3.14-40.el6.x86_64.rpm 、 telnet-0.17-48.el6.x86_64.rpm 和telnet-server-0.17-48.el6.x86_64.rpm)入/opt/software 文件夹下面。执行 RPM 软件包安装命令:
原创
发布博客 2020.11.23 ·
248 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume1 概述

Flume1 概述更多整理都在我的github上:Auraros欢迎大家。定义Flume是Cloudera提供一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume基于流失架构,灵活简单。Flume主要用于对Java后台日志以及Python爬虫数据的数据实时读取进行一个传输,传输到HDFS中。基础架构1. source: 一个存储数据的地方,将读入的数据存储起来2. channel:管道,将数据运输到输出端口的管道(防止读入比写出快而导致崩溃)3. sink: 输出
原创
发布博客 2020.11.23 ·
192 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive调优1 Fetch抓取

Hive调优1 Fetch抓取更多整理都在我的github上:Auraros欢迎大家。Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算.在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,一般的SQL语句转换成MapReduce程序运行。那么问题来了:什么样的程序才不用进行MR计算呢?首先是针对简单查询的,比如单纯的select当数据量很少的时候出现数据倾斜的时候数据量特别大的时候针对简单查询的解决但是Hive中对某些情况
原创
发布博客 2020.10.29 ·
242 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive总结1 基本操作

Hive总结1 基本操作更多整理都在我的github上:Auraros欢迎大家。数据库的基本操作创建数据库create database [if not exists] myhive;说明一下: Hive表存放位置模式是由hive-site.xml当中的一个属性指定的:<property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/warehouse</v
原创
发布博客 2020.10.28 ·
222 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Yarn7 任务推测执行

Yarn7 任务推测执行更多整理都在我的github上:Auraros欢迎大家。任务的推测执行1.作业完成时间取决于最慢的任务完成时间一个作业由若干个Map任务和Reduce任务构成。因硬件老化、软件Bug等,某些任务可能运行非常慢。典型案例:系统中有99%的Map任务都完成了,只有少数几个Map老是进度很慢,完不成,怎么办?2.推测执行机制发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度。为拖后腿任务启动一个备份任务,同时运行。谁先运行完,则采用谁的结果3.执行推测任务的前
原创
发布博客 2020.10.28 ·
290 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Yarn6 调度器Scheduler

Yarn6 调度器Scheduler更多整理都在我的github上:Auraros欢迎大家。背景: 理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。目前,Hadoop作业调度器主要有三种,F
原创
发布博客 2020.10.28 ·
175 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多