✔✔✔✔
码龄6年
关注
提问 私信
  • 博客:23,954
    动态:6
    23,960
    总访问量
  • 25
    原创
  • 1,460,684
    排名
  • 7
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-12-15
博客简介:

qq_44110741的博客

查看详细资料
个人成就
  • 获得23次点赞
  • 内容获得14次评论
  • 获得42次收藏
创作历程
  • 1篇
    2021年
  • 24篇
    2020年
成就勋章
TA的专栏
  • 杂记
    1篇
  • Hadoop生态圈
    21篇
  • 学习笔记
    2篇
  • BUG
    1篇
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

jupyter 使用快捷方式自动打开chrome浏览器操作页面

1. 创建一个文件作为jupyter的启动路径,作为jupyter的工作目录2. jupyter快捷方式上右键属性,配置路径3.打开cmd,在命令行中输入jupyter notebook --generate-config ,输入y4.打开上图中文件,ctrl+f 搜索NotebookApp.browser5. 在jupyter_notebook_config.py文件中配置浏览器import webbrowser# 配置chrome.exe文件路径,注意使用\\.
原创
发布博客 2021.02.27 ·
697 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume简介

一、Flume是什么 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 简单来说,flume是一个分布式的实时数据采集系统。flume最主要的作用就是,实时读取服务器本地磁盘中的数据,上传到hdfs。 flume的核心是,搞清楚采集,收集,读取的数据从哪里来,配置合适类型的source;根据数据目的地,配置合适的sink;在送到目的地之前,会先缓存数据(channel),...
原创
发布博客 2020.10.06 ·
1730 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Impala学习笔记

目录一、Impala 概述1.1 什么是 Impala2.2 Impala 的功能2.3 Impala 的优缺点2.4 关系数据库和impala2.5Hive,Hbase和Impala二、Impala 架构三、Impala的操作命令3.1Impala的外部shell3.2Impala的外部shell四、Impala 的 SQL 操作4.1Impala数据类型4.2 数据库操作4.3 Impala 表操作4.3.1 创建表4.3.2 分区...
原创
发布博客 2020.10.06 ·
1332 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Phoenix学习笔记

目录一、Phoenix是什么二、Phoenix命令操作2.1 基本命令2.2 表操作2.2.1 创建表2.2.2 显示所有表2.2.3 删除表2.3 数据操作2.3.1 全字段插入2.3.2 部分字段插入2.3.3 删除数据2.4 HBase 表映射2.4.1 视图映射2.4.2 表映射三、Phoenix 索引3.1 Phoenix 索引介绍3.2 配置hbase支持Phoenix创建二级索引3.2覆盖索引3.3本地索引与全局..
原创
发布博客 2020.10.05 ·
541 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase原理及优化

目录一、HBase 原理之写流程二、HBase 原理之读流程三、HBase 原理之数据Flush流程四、HBase 原理之数据合并流程五、Java API 操作 HBase5.1 环境准备5.2 HBase API5.2.1 获取Configuration对象5.2.2 判断表是否存在5.2.3 创建表5.2.4 删除表5.2.5 向表中插入数据5.2.6 删除一行&多行数据5.2.7 获取所有数据5.2.8 获取某一行数据,指定列族,..
原创
发布博客 2020.10.05 ·
484 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

HBase入门篇

目录一、HBase概述1.1 HBase的定义1.2 HBase的特点1.3 HBase机制原理图1.4HBase中的角色1.4.1 HMaster1.4.2 RegionServer1.4.3 其他组件二、HBase Shell操作2.1HBase Shell基本操作2.1HBase 数据表操作三、HBase数据结构3.1 HBase RowKey设计3.2 Column Family3.3 Time Stamp3.4 命名空间一、...
原创
发布博客 2020.10.05 ·
322 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive调优与总结

目录一、Hive调优1.1 Fetch抓取1.2 本地模式1.3 严格模式二、Hive要点总结一、Hive调优1.1 Fetch抓取 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.template文件中hive.fet...
原创
发布博客 2020.10.05 ·
164 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive学习之HQL(DDL、DML、DQL)

目录一、DDL数据定义1 创建数据库2 查询数据库(1)显示数据库(2)查看数据库详情(3) 切换当前数据库3 删除数据库4 创建表1 内部表(管理表)1.理论2.案例实操2 外部表1.理论2.管理表和外部表的使用场景3.案例实操5 分区表1 分区表基本操作2 分区表注意事项6 修改表1 重命名表2 增加/修改列信息7 删除表二、DML数据操作1 数据导入1 向表中装载数据(Load)2 通过查询语句..
原创
发布博客 2020.10.05 ·
1540 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Hive入门篇

目录一、数据仓库介绍1、数据仓库的特点2、数据仓库的基础架构二、Hive基本概念1. Hive是什么2. Hive的优缺点3. Hive和数据库比较4. Hive的架构原理三、Hive数据类型1. 基本数据类型2. 类型转化总结一、数据仓库介绍 数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的、时变的。数据仓库是所有操作环境和外部数据源的快照集合。1、数据仓库的特点 面向主题的:数据仓库都是...
原创
发布博客 2020.10.04 ·
296 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

动物园铲屎官Zookeeper——实战篇

目录一、客户端命令行操作1.启动客户端2.显示所有操作命令3.查看当前znode中所包含的内容4.查看当前节点数据并能看到更新次数等数据5.创建普通节点6.获得节点的值7.创建短暂节点8.创建带序号的节点9.修改节点数据值10.节点的值变化监听11.节点的子节点变化监听(路径变化)12.删除节点13.递归删除节点14.查看节点状态二、API应用1、Idea环境搭建3、Java客户端操作(带监听)三、监听服务器动态上下线案例1..
原创
发布博客 2020.10.04 ·
186 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

动物园的铲屎官Zookeeper——原理篇

目录前言一、Zookeeper是什么二、Zookeeper集群特点三、Zookeeper的数据结构1. Znode类型2. stat结构体三、Zookeeper内部原理1. 监听器原理2. 写数据流程前言hadoop生态圈中的动物有点点多,所以我们的zookeeper光荣的担任了铲屎官这一工作,鼓掌~~~~。一、Zookeeper是什么 Zookeeper是一个开源的,分布式的,为分布式应用提供协调服务的Apache项目。 ...
原创
发布博客 2020.10.04 ·
468 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce框架原理之Shuffle机制

前言Mapreduce确保每个reducer的输入都是按key排序的。系统执行排序的过程(即将mapper输出作为输入传给reducer 的这个过程)称为shuffle(洗牌)。一、Partiton分区把map任务输出的kv放到不同的分区文件中,相同分区的数据由一个reduce task来处理。从而达到reduce并行把结果写到不同文件的目的。1、默认partition分区public class HashPartitioner<K, V> extends Parti...
原创
发布博客 2020.09.20 ·
481 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce框架原理之ReduceTask工作机制

一、Reduce Task 并行度决定机制reduce task的并行度,也就是同时开启了几个reduce task。分为两种情况:1、如果我们自己定义了分区器,我们能够确定自己的分区器能够形成几个物理分区,加入我们要生成5个分区,那么我们要再driver中设置与分区数量相等的reduce task数量://默认值是1,手动设置为5job.setNumReduceTasks(5);2、如果我们采用默认的分区器,也就是HashPartitioner,那么只需要根据实际情况在dr...
原创
发布博客 2020.09.19 ·
820 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce框架原理之MapTask工作机制

一、MapTask并行度决定机制maptask并行度决定map阶段任务处理的并发度,进而影响整个job的处理速度。一个job的map阶段MapTask并行度(个数),由客户端提交job时的切片个数决定。例如,切两个切片,就会生成两个map task,切3个切片,就会生成3个map task。如图所示:二、MapTask工作机制MapTask工作机制如图所示:(1)Read阶段:Map Task通过用户编写的RecordReader,从输入InputSplit中...
原创
发布博客 2020.09.19 ·
714 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

MapReduce框架原理之InputFormat数据输入

前言我们在指定driver类的main方法向yarn提交任务的时候需要对数据进行切片,数据切片是逻辑上的,并不会对磁盘上的文件进行真正的拆分存储提示:以下是本篇文章正文内容,下面案例可供参考一、FileInputFormat切片机制(默认的切片机制)FileInputFormat是mr中默认的切片机制。1、切片原理(1)遍历整个目录,对每个文件进行单独的切片处理。(2)先拿到文件的大小,文件大小与128M的1.1倍进行比较,也就是与128*1.1=140.8M进行比较,如果...
原创
发布博客 2020.09.19 ·
581 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce框架原理之MapReduce工作流程

文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言MapReduce工作流程详解一、MapReduce工作流程图二、MapReduce工作流程详解1.引入库代码如下(示例):import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warn..
原创
发布博客 2020.09.19 ·
635 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Hadoop序列化

目录前言一、序列化概述1.什么是序列化2.为什么要序列化3.为什么不用java的序列化Serialization二、常用数据序列化类型三、自定义bean对象实现序列化接口(Writable)四、序列化案例实操1.需求2.数据准备3.思路分析4.代码实现总结前言Hadoop不使用java的序列化serilazable,而是自己开发了一套序列化机制Writable一、序列化概述1.什么是序列化 序列化就是将内存中的对象转换成字节序列(..
原创
发布博客 2020.09.05 ·
426 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce入门讲解及案例

文章目录前言二、MapReduce的优缺点1.优点2.缺点三、MapReduce的核心编程思想四、MapReduce编程规范(八股文)1.Mapper阶段2.Reduce阶段3.Driver阶段五、WordCount案例实操1.需求2.数据准备3.分析4. 代码实现5.本地测试6.集群上测试总结前言hadoop由四部分组成:hdfs(分布式文件系统),MapReduce(一个分布式的离线并行计算程序框架框架),yarn(作业..
原创
发布博客 2020.09.05 ·
857 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

DataNode工作机制

DataNode工作机制,如图所示:(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。(2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。(3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。..
原创
发布博客 2020.09.05 ·
102 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

NameNode和SecondaryNameNode工作机制

一、NN和2NN工作机制NN和2NN工作机制,如图所示(1)第一阶段:NameNode启动a)第一次启动NameNode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志(位于磁盘上,存储的是生成元数据的步骤,执行后会生成元数据)和镜像文件(位于磁盘上,存储的是文件的元数据)到内存。b)客户端向namenode发出对元数据进行增删改的请求。Namenode在接收这些请求的时候,并不是直接写到内存里面,因为写到内存的话,断电会丢失,因此将这些请求分为一个个小步骤写入到
原创
发布博客 2020.09.05 ·
191 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多