BubbleMa
码龄10年
关注
提问 私信
  • 博客:23,321
    23,321
    总访问量
  • 23
    原创
  • 750,757
    排名
  • 3
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:吉林省
  • 加入CSDN时间: 2015-03-25
博客简介:

BubbleMa

查看详细资料
个人成就
  • 获得11次点赞
  • 内容获得0次评论
  • 获得22次收藏
创作历程
  • 2篇
    2022年
  • 19篇
    2021年
  • 1篇
    2019年
  • 4篇
    2018年
成就勋章
TA的专栏
  • Hadoop
    9篇
  • mysql
  • Spark
  • bugs
    2篇
  • linux
    1篇
  • java
  • Scala
  • Utils
    1篇
  • zookeeper
    2篇
  • Hive
    5篇
兴趣领域 设置
  • 大数据
    flink
  • 人工智能
    opencv计算机视觉机器学习深度学习神经网络自然语言处理tensorflowpytorch图像处理nlp数据分析
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hadoop-HA

一、集群五种安装模式1. 单机2. 伪分布式3. 完全分布式 一个主节点,一个冷备份节点 存在单点故障问题4. 高可用 多个主节点,多个从节点,从一时刻只有一个active主节点提供服务,主节点仍然是一台机器的性能,主节点压力过大。5. 联邦块池:联邦模式中标志数据块的管理权限 同一时间多个主节点提供服务,多个namenode依赖于块池id区分数据归属多个namenode共同...
原创
发布博客 2022.03.24 ·
270 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Yarn mr1.0

资源调度:主从jobtracker:1. 负责mr任务的资源调度,分配资源2. 启动mr任务3. 监控当前mr任务的执行进度和状态1)jobtracker没有高可用配置方案,存在单点故障问题2)jobtracker压力过大,既要负责资源分配,又要负责应用程序的跟踪tasktracker:将资源分为mapslot和reduceslot,资源严重浪费1. jobtracker单点故障2. jo...
原创
发布博客 2022.03.22 ·
237 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HA集群两个standby

关闭集群任意namenode节点上初始化zkfchdfs zkfc -formatZK启动集群
原创
发布博客 2021.12.24 ·
990 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Sqoop

一、概述Sqoop 是 Apache 旗下一款“ Hadoop 和关系数据库服务器之间传送数据 ”的工具,实现大数据平台与关系型数据库之间的数据迁移。导入 import:关系型数据库导入数据到大数据平台导出 export:大数据平台数据导出到关系型数据库Sqoop的本质是一个命令行工具,将数据迁移的命令转化为MR程序。传统MR程序的输入输出都是HDFS,Sqoop底层只需重新定义输入 InputFormat 和输出 OutputFormat,以实现从关系型数据库读取数据和向关系型数据库写入数
原创
发布博客 2021.12.17 ·
1683 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Zookeeper(二)

一、Zookeeper原理解析1、集群角色描述角色 描述 领导者(Leader) Leader负责进行投票的发起和决议,更新系统状态; 处理客户端的读写请求(为了保证最终一致性,所有写请求都由Leader处理) 学习者(Learner) 跟随者(Follower) Follwer用于接收客户端的请求并向客户端返回结果; Follwer在选主的过程中参与投票。 观察者(Observer) Observer
原创
发布博客 2021.12.16 ·
775 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Zookeeper(一)

zookeeper介绍
原创
发布博客 2021.12.16 ·
1160 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

mac mysql无法启动 mac ERROR 2002 (HY000): Can‘t connect to local MySQL server through socket ‘/tmp/mysq

大概率因为关闭电脑没有正常关闭mysql1. 停止mysql服务sudo mysql.service stop若不能正常关闭,则查看mysqld进程号kill掉ps -ef | grep mysqldkill -9 进程号2. 开启mysql服务sudo mysql.service startmysql -uroot -p...
原创
发布博客 2021.12.15 ·
748 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive(五) -- Hive执行流程、数据倾斜和优化

Hive的数据倾斜实际上就是MR的数据倾斜
原创
发布博客 2021.12.14 ·
1580 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Hive(四) -- 数据类型、函数、json、多字节分隔符、窗口函数

一、函数1、内置函数 查看内置函数:show functions 查看某一内置函数信息:desc function extended fname 常用内置函数: 1. 集合函数 map:生成map集合。参数必须是偶数个,奇数位看做key,偶数位看做value array:生成数组 ...
原创
发布博客 2021.12.14 ·
608 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive(三) -- dml

一、插入1. load load data [local] inpath '/../..' [overwrite] into table tname [partition(partcol1=val1,...)]; 1)从本地加载 使用local关键字加载本地的数据,实质是将本地数据上传到HDFS中Hive表的目录下。 2)从HDFS加载 加载HDFS上的数据,此时会将数据移动到Hiv...
原创
发布博客 2021.12.14 ·
898 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive(二) -- ddl

Hive支持标准SQL,同时又有自己的特点,属于方言版SQL。Hive的ddl主要包含对于数据库和表的查询、创建和删除。dml包含数据查询和插入,其中插入有load和insert两种方式,针对于4种表的特点有不同的插入方式。一、ddl : data define language库: 创建库:create database dname; 切换库:use dname; 查询库列表:show database; show...
原创
发布博客 2021.12.14 ·
1181 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Hive(一)

一、产生背景 Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据 映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。Hive 的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的批量数据计算。Hive 依赖于 HDFS 存储数据,Hive...
原创
发布博客 2021.12.14 ·
1097 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Hadoop(七) -- Yarn

一、Yarn概述资源调度器,负责计算程序的资源调度。Yarn采用主从架构,主节点RecourceManager,从节点NodeManager。1. ResourceManagerResourceManager是基于应用程序对集群资源的需求进行调度的YARN集群主控节点,负责协调和管理整个集群(所有nodemanager的资源),相应用户提交的不同类型应用程序的解析,调度,监控等工作。ResourceManager为每个Application启动一个MRAppMaster,并且...
原创
发布博客 2021.12.13 ·
822 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop(六) -- MapReduce(四)join

MapReduce, map join, reduce join
原创
发布博客 2021.12.13 ·
336 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop(五) -- MapReduce(三)shuffle

mepreduce共三个模块,map、shuffle、reduce。map端读取数据并将数据映射为键值对发送给ruduce端,在发送过程中会进过一个shuffle过程(分区、排序、分组),数据先按分区规则进行分区,分区后再对每个分区中的数据进行排序,最后再对排序后的数据进行分组(相同key的为一组)。经过shuffle之后,数据已经分为了不同的区,每个区中的数据已经排好序传入reduce端,reduce端每次读入一个组的数据进行处理。一、排序 当map端发送的key是自...
原创
发布博客 2021.12.13 ·
467 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop(四) -- MapReducer(二)maptask和reducetask并行度

一、MapTask的并行度 运行map部分的任务叫做maptask,并行度是指同时运行的maptask的任务个数。maptask处理的数据量对应于一个文件切片,每个maptask处理一个文件切片大小的数据。 MapReducer任务运行时通过 FileInputFormat 类传入输入数据文件,该类在读取文件时会调用 getSplit() 方法对文件进行逻辑切片。 getSplit() 部分源码如下,当使用默认配置时切片大小默认等于HDFS分块大小1...
原创
发布博客 2021.12.10 ·
867 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop(三) -- MapReduce(一)WordCount

一、设计思想 移动计算代替移动数据。分而治之。MapReduce是一个分布式计算框架,借助函数式编程思想,用Map和Reduce两个函数编程实现基本的并行计算任务。MapReducer内部封装了文件读取操作,用户在使用时只需要继承Mapper和Reducer类并实现map和reduce两个方法(相当于将自己的业务逻辑作为参数传入MapReducer框架)即可实现大数据分布式计算。 MapReduce计算模型主要由三个阶段构成:Map、shuffle...
原创
发布博客 2021.12.10 ·
811 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hadoop(二) -- HDFS

一、设计思想 1. 分块存储 文件在hdfs中采用分块方式存储,hadoop2中数据块默认大小为128M。每个文件在hdfs中存储时被切分成多个大小相同的块,若数据大小不足128M也按照128M进行存储。 2. 备份存储 hdfs底层采用空间换取数据安全,每个数据块会复制多个副本存储在不同的节点上。多个副本之间互为备份,没有主次之分。 3. 元数据 记录...
原创
发布博客 2021.12.06 ·
1127 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop(一)

一、大数据相关概念 1. 集群 很多机器共同完成一个任务,多台机器叫做一个集群,每一个机器叫做一个节点。 2. 分布式 一个任务被分成多个小任务,每个机器只负责一个小任务,这个任务的执行就是分布式执行。 3. 负载均衡 同一个集群中的每一个节点分担的任务相等二、Hadoop模块 1. common ...
原创
发布博客 2021.12.06 ·
206 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

linux执行python脚本

1. 查看python路径which python2. .py文件头部标注解释器#!/usr/bin/python3. 执行脚本文件./file_name.py
原创
发布博客 2021.12.01 ·
1217 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多