2301_76553988
码龄2年
关注
提问 私信
  • 博客:1,009
    1,009
    总访问量
  • 3
    原创
  • 1,046,975
    排名
  • 12
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2023-02-16
博客简介:

2301_76553988的博客

查看详细资料
  • 原力等级
    当前等级
    1
    当前总分
    33
    当月
    0
个人成就
  • 获得14次点赞
  • 内容获得3次评论
  • 获得5次收藏
创作历程
  • 3篇
    2024年
成就勋章
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

分布式SQL计算Hive实操

数据库:是存储没有经过任何加工的原始数据的,通过数据库软件实现。数据库有很多表组成,每张表里面又有很多字段,因此能够通过表的二维来表现三维的关系。数据仓库:是为了满足数据分析需要设计的,存储的是经过ETL过程的数据,能够反映相当长一段时间内的历史数据内容,是不同时间点数据库快照的集合。2.数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。4.数据库是为捕获数据而设计,数据仓库是为分析数据而设计。1.数据库是面向事务的设计,数据仓库是面向主题设计的。UPDATE - 更新数据库中的数据。
原创
发布博客 2024.04.24 ·
308 阅读 ·
8 点赞 ·
2 评论 ·
2 收藏

hadoop的基础理解

HDFS的副本机制,HDFS上的每一份文件,默认是存储3个副本。一般来说,这三个副本会存放在多个地方,比如说同一个机房的不同机架,不同机房的机架,避免意外发生遭到团灭。读取数据时,如果读取的DataNode挂掉,则通过Yarn寻找另一台网络拓扑距离最近的机器上的备份数据进行断点续传。Apache Hive是一款分布式SQL计算的工具,其主要功能是:将SQL语句翻译成MapReduce程序运行。基于Hive为用户提供了分布式SQL计算能力,写的是SQL,运行的是MapReduce。
原创
发布博客 2024.04.23 ·
328 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

hadoop大数据入门学习

volume(体积)、variety(种类)、value(价值)、velocity(速度)、veracity(质量)分布式 :分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事。集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事。广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。• 广义上:数字化、信息化时代的基础支撑,以数据为生活赋能。YARN(作业调度和集群资源管理的框架):解决资源任务调度。• 狭义上:对海量数据进行处理的软件技术体系。
原创
发布博客 2024.04.22 ·
373 阅读 ·
5 点赞 ·
1 评论 ·
3 收藏