![](https://img-blog.csdnimg.cn/20200922122737399.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据基础
文章平均质量分 94
还站在大数据的门口驻足不前吗?高薪钱途等着你。此专栏助您快速入门
KK架构
天道酬勤
展开
-
Zookeeper 核心功能讲解与实战
一、前言想起很久以前在某个客户现场,微服务 B 突然无法调用到微服务 A,为了使服务尽快正常恢复,重启了微服务 B 。但客户不依不饶询问这个问题出现的原因,于是我还大老远从杭州飞到深圳,现场排查问题。最后的结论是,zk 在某时刻出现主备切换,此时微服务 A(基于 dubbo)需要重新往 zk上注册,但是端口号变了。但是微服务 B 本地有微服务 A rpc 接口的缓存,缓存里面还是旧的端口,所以调用不到。解决方法就是,把微服务的 rpc 端口号改成固定的。虽说原因找到了,但对于 Zookeepe原创 2021-07-31 09:23:09 · 391 阅读 · 0 评论 -
分布式理论 二阶段提交 2PC 3PC 端到端一致性 分布式事务
一、临界知识对我们学习的巨大帮助临界知识这个概念,是我上个月读《好好学习:个人知识管理精进指南》这本书学到的概念,真的有被启发到,现在觉得它对于我们深刻了解世界有着非常大的作用。所谓临界知识,是我们经过深度思考后发现的,对于认识世界具有普遍指导意义的规律或定律,比如我们经常会看到复利模型、概率论、边际收益、二八法则这些基础概念,它们都是临界知识。通常一个临界知识,对不同的领域都具有指导意义和应用价值。当然在编程世界中,也有很多临界知识:比如最经典的就是设计模式里面的 KISS 原则、SOLID.原创 2021-07-18 18:00:56 · 337 阅读 · 1 评论 -
大数据快速入门(10):Hive窗口函数
一、窗口函数的概念首先,需要认识到,窗口函数并不是只有 hive 才有的,SQL 语法标准中,就有窗口函数。并且 mysql,oracle等数据库都实现了窗口函数。而 hive 自带的窗口函数功能,则是对原有 hive sql 语法的补充和加强。那么什么时候,会用到窗口函数?举两个小栗子:排名问题:每个部门按业绩排名topN 问题:找出每个部门排名前 N 的员工进行奖励面对这类需求,就需要使用窗口函数了。窗口函数的基本语法如下:<窗口函数> over (partition原创 2020-11-07 16:45:11 · 405 阅读 · 0 评论 -
大数据快速入门(09):永久弄清楚 Hive 分区表和分桶表的区别
蛋蛋 和 小智 今天又在“打情骂俏”,他们今天在谈论分区表和分桶表,走,我们去听听。这天,蛋蛋去茶水间倒水,他把水杯放在饮水机下面,打开开关,一直盯着墙上的画在看,灵魂仿佛已经飞了出去。直到杯子的水都满出来,也没察觉。这时,小智也去倒水,拍了一把蛋蛋,嘲讽道:“蛋总,你想啥呢,倒杯水都心不在焉?”蛋蛋一脸尴尬,“前些天看了你写的 Hive SQL 语法,看到建表的时候,有好多种表类型,什么分区表和分桶表,想不明白它们到底有啥区别,实际有啥作用…”。小智提高了三个音调:“蛋啊,你这种勤奋劲儿,让我很感原创 2020-10-24 23:21:19 · 288 阅读 · 0 评论 -
大数据快速入门(08):Hive Sql 语法大全,宇宙最强整理,建议收藏
一、DDL 操作DDL 大纲,让我们对 Hive 的 DDL 操作有一个整体认识注:SCHEMA/DATABASE 是相同的概念,只是叫法不同而已-- 创建数据库/SCHEMA,表,视图,函数,索引CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEX-- 删除数据库/SCHEMA,表,视图,索引DROP DATABASE/SCHEMA, TABLE, VIEW, INDEX-- 清空表TRUNCATE TABLE-- 修改数据库/S原创 2020-10-22 22:23:36 · 1418 阅读 · 0 评论 -
大数据快速入门(07):数据仓库神器 Hive
一个数据分析人的苦恼上次,小K 介绍了 MapReduce 框架,大大简化了大数据编程的难度,即使是没有学过分布式技术的开发人员,也能用 MapReduce 开发出大数据分布式计算程序。于是小K 满怀自信的把这个框架介绍给了公司的数据分析师大虾,然后还顺便给大虾介绍了 MapReduce 编程的五个步骤。小K 讲的津津有味,唾沫横飞,大虾则听的一头雾水。大虾忍不住了,很不耐烦的说:“我是个数据分析师,我只关注数据,可对你那套 JAVA 开发环境不感冒,难不成我要统计一个 uv,还得搭建一个 IDEA原创 2020-10-20 08:55:26 · 185 阅读 · 2 评论 -
大数据快速入门(06):秒懂资源调度框架 YARN
一、第一代资源管理器为什么会被淘汰掉我们知道,hadoop 主要是由三部分组成,HDFS (hadoop 分布式文件系统),MapReduce(分布式计算框架),还有一个就是分布式集群资源调度框架 YARN。但是 YARN 并不是随 HADOOP 的推出一开始就有的。YARN 是在 Mapreduce 基础上演化而来的,它克服了 MapReduce 架构中的各种局限性,主要可概括为以下几个方面:可靠性差MRv1采用了master/slave结构,其中,master存在单点故障问题,一旦它出现故障将原创 2020-10-15 12:17:41 · 569 阅读 · 2 评论 -
大数据快速入门(05):MapReduce 编程模型赏析
一、Hadoop 诞生的传奇故事(上图是 Doug Cutting,hadoop 之父)1985年,Cutting 毕业于美国斯坦福大学。Cutting 的第一份工作是在 Xerox 做实习生,为激光扫描仪上的操作系统开发屏幕保护程序,这也是他最早的“平台”级的作品。Cutting 却不满足于此,于是他开始踏入搜索领域,让搜索技术可以为更多人所用。于是1997年底,他用 java 开发出了 Lucene,一个非常伟大的项目。2004年,Cutting 和同为程序员出身的 Mike Cafarel原创 2020-10-12 12:26:58 · 418 阅读 · 0 评论 -
大数据快速入门(04):时代风云变幻,HDFS 仍旧是存储之王
HDFS 的地位为何如此稳固在整个大数据体系里面,最宝贵、最难以替代的资源就是数据。大量数据是以文件形式保存的,典型代表是行为日志数据(用户搜索日志、购买日志、点击日志以及机器操作日志等)。这些文件形式的数据具有价值高、数据大、流式产生的特点,需要一个分布式文件系统存储它们,该文件系统应具有良好的容错性、扩展性和易用的 API。而HDFS 就是一个理想的解决方案。如果我们把大数据计算比作烹饪,那么数据就是食材,而分布式文件系统 HDFS 就是那口烧菜的大锅。HDFS 作为最早的大数据存储系统原创 2020-09-30 13:28:50 · 171 阅读 · 0 评论 -
大数据快速入门(03):漫谈数据收集,你的数据值百万
札记亲爱的粉丝老爷,好久不见。这次我为文章增加一个新的栏目,叫“札记”,记录一下平时的工作,给冷冰冰的技术文章增加一些温度,给即将到来的冬天暖暖心,大概 200 字左右。说说我入门大数据的奇葩故事吧。大概在 2017 年的时候,公司准备做一款球赛预测的产品,做出来给平台粉丝预测足球比赛的胜平负,提示他们的返奖率。当时我们是基于一些规则来做的。比如根据赔率波动,水位升降,盘口大小来预测比赛的胜平负。于是乎我就开发了这么一个系统。但是它跟大数据毛关系没有啊。估计当时领导们已经给我贴上大数据的标签原创 2020-09-27 22:15:50 · 445 阅读 · 0 评论 -
大数据快速入门(02):选择大数据,我该往哪个方向发展
我待过的两个大数据部门大数据的方向有很多的,即使没有真正经历过,平时也会耳濡目染,在各大杂志公众号新闻上听说过,什么大数据人工智能,大数据分析挖掘,大数据架构师等职位。我以我的两段从业经历来说明一下大数据的方向吧。我的前公司是一家互联网企业,大数据部门是从0开始起步的。我们的数据总监是来自百度的资深专家。一开始是从0开始搭建 CDH 集群,接着采集服务器日志,采集关系型数据库数据到 hadoop 上。等数据渐渐多了起来,我们开始着手做一个企业数据仓库,整合各个业务线的数据,最终产出各种报表和分析原创 2020-09-24 12:09:11 · 416 阅读 · 0 评论 -
大数据快速入门(01):大数据时代悄然而至
大数据时代悄然而至大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式遥想我在 2007 年读高中的时候,省吃俭用花了百来块钱买了一个不知名品牌的MP3播放器,容量只有256M。拿到MP3播放器后真的非常欣喜,因为这个MP3播放器能存储大约百来首普通压缩率的MP3歌曲,还可以看小说。挂着耳机有种酷酷的感觉。在这之前,我只有一台步步高随身听,要听新歌只能花钱买磁带,每盘磁带大约12元,只能存储10首歌,而且还没原创 2020-09-22 12:34:41 · 372 阅读 · 0 评论