会写程序员的代码
码龄7年
关注
提问 私信
  • 博客:9,378
    9,378
    总访问量
  • 9
    原创
  • 2,163,253
    排名
  • 4
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2017-12-27
博客简介:

qq_41547580的博客

查看详细资料
个人成就
  • 获得6次点赞
  • 内容获得0次评论
  • 获得35次收藏
  • 代码片获得112次分享
创作历程
  • 10篇
    2020年
成就勋章
TA的专栏
  • hbase
    1篇
  • kafka
    1篇
  • hadoop
    7篇
  • scala
    1篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

HBase入门

什么是HBase?一、概念基于hdfs,高可靠性、高性能、列存储、可伸缩、快速响应、实时读写nosql的数据库系统二、应用场景Hbase非常适合用来进行大数据的实时查询。如:Facebook用Hbase进行消息和实时的分析。它也可以用来统计Facebook的连接数。三、整体架构各组件成员介绍及对应职责Clinet(客户端):包含访问HBase接口,维护一些cache(缓存),如:...
原创
发布博客 2020.01.15 ·
235 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

真的,关于 Kafka 入门看这一篇就够了【转载】

真的,关于Kafka入门看这一篇就够了
转载
发布博客 2020.01.13 ·
417 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume入门

一、什么是Flume?是一个分布式可靠的高可用的海量日志收集、聚合、移动的工具。通俗来说flume就是一个日志采集工具。二、flume的特性1)flume可以高效率的将多个网站服务器中收集的日志信息存入HDFS/HBase中(这里测试时是以集群中不同主机作为一个服务器,然后采集不同主机上的日志文件并存入HDFS)2)移交数据速度快。flume可以将从多个服务器中获取的数据迅速移交给...
原创
发布博客 2020.01.08 ·
389 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive入门(二)之Hive调优

在项目开发过程中,使用hive进行数据处理和分析的时候经常会出现问题,如:GC,数据倾斜,这些都是老生常谈的问题了,下面概括几个常用的hive调优方法Hive调优1)map端join1)如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成CommonJoin,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载...
原创
发布博客 2020.01.07 ·
333 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive入门(一)

一、什么是Hive?基于hdfs,结合类SQL引擎,底层执行MR任务,用于OLAP分析查询的数据仓库。hive的运行原理(简单版理解)driver:解析器,将语句生成抽象的表达式树编译器:词法分析、语法分析、编译(需要联系元数据),编译完成后会生成执行计划优化器:将执行计划进行优化,减少不必要的列、使用分区等等执行器:将优化后的执行计划交给执行引擎运行二、Hive分区、分桶的意义...
原创
发布博客 2020.01.07 ·
503 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala入门篇(一)

简单总结一下scala这门编程语言,希望能让大家快速入门。一、scala简介介绍: scala是一门多范式,命令行式编程语言,将面向对象和函数式编程结合在一起并且基于JVM之上的语言。作者: scala的作者叫马丁·奥德斯基,同时也是Java JVM的开发者兼Java泛型的创始人。所以scala是基于java开发的,scala的任务也是基于JVM(虚拟机)基础之上。发行时间: 20...
原创
发布博客 2020.01.06 ·
443 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hadoop架构及各组件介绍

什么是hadoop?hadoop是一个可靠,可扩展的分布式开源框架,提供海量数据的存储和计算。一般hadoop指的是hadoop生态圈。一、先通过一张图了解一下hadoop生态系统整体框架结构。二、理解hadoop生态系统之前,我们先来认识几个概念:1.什么是分布式? 个人理解,就是将一个系统的功能模块分散部署在不同的服务器上,每个服务器上的系统分别对应一个模块功能,每个模块可能负...
原创
发布博客 2020.01.05 ·
5641 阅读 ·
3 点赞 ·
0 评论 ·
30 收藏

Hadoop核心组件之Yarn、Mapreduce(一)

什么是Yarn?一、概念是Hadoop生态的资源管理系统。YARN的职责主要是资源管理和Job调度管理。二、yarn的各个成员及职责yarn的主要成员有:ResouceManager、NodeManager、ApplicationMaster、Container。1.ResouceManager职责: 1)处理客户端请求 2)启动或监控ApplicationMaster 3)监控...
原创
发布博客 2020.01.05 ·
567 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop核心组件之HDFS(二)

HDFS的高可靠性的策略机制有哪些?分布式文件系统(HDFS)的高可靠性主要是由多种策略及机制共同作用实现的。常见的三种错误情况:文件损坏、网络或者机器失效、NameNode挂掉。下面我们来看下解决三种常见错误的可靠性策略:**1.文件完整性** –CRC32校验,验证数据是否损坏 在文件建立时,每个数据块都产生校验和,校验和会保存在.meta文件内;客户端获取数据时可以检查...
原创
发布博客 2020.01.04 ·
251 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hadoop核心组件之HDFS(一)

HDFS读流程读流程描述:1. 客户端通过RPC机制调用DistributedFileSystem(分布式文件系统)的FileSystem对象的open()方法与Namenode交互。2. DistributedFileSystem会给Namenode发送请求。3. Namenode接收请求并处理请求: ①会先检查文件是否在Namenode维护的统一命名空间(即目录树结构)中,如果不存...
原创
发布博客 2020.01.04 ·
600 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏