自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Spark Streaming实时计算框架—在他乡

书接上回,斜阳外,古道边,spark与儿时老友相遇在桥头的酒家。几经流年,spark风流不减当年,仍然如往时那般多情,而kafka却变得深沉了许多,听kafka回忆到:“当年与Sprak streaming在一起的时光多么潇洒、快乐,而如今,人是故人,酒是老酒,谈吐间尽是忧愁。欲买桂花同载酒,终不似,少年游。成年的我们觉得压力无处不在,而快乐却显得那么珍贵。彼此漂泊在外,无处可依,无处可靠,只剩下眼前的苟且。提示:以下是本篇文章正文内容,下面案例可供参考。

2023-05-21 21:21:56 288 1

原创 Kafka集群部署与测试

聚散匆匆,云边孤雁,水上浮萍。Spark别了与之邂逅的HBase,又一个人孤独地走在了漂泊的路上。孤独的人习惯孤独,可是却不习惯别离,虽说只是几句寒暄,却也难下心头。Spark望着红日已经高高挂起,微风摇曳着路旁的细柳,已而不得已踏上了路在脚下的征程。斜阳外,古道边,一处酒家在一座石拱桥的尽头,依石而建,伊水而生。令他感到诧异的并不是如此优雅的酒家,而是那么熟悉的背影。一副模糊的轮廓勾起了儿时的回忆,心里忐忑着,难道真的是他?

2023-05-08 17:34:10 301

原创 Spark算子综合案例

安得广厦千万间,大庇天下寒士俱欢颜。wordCount.sortBy(_._2, false)对聚合之后的值进行降序排序。第1关:WordCount - 词频统计第2关:friend recommendation - 好友推荐

2023-05-04 21:58:12 724

原创 centos6.9安装netcat

我们首先需要一个netcat,但是我的版本是6.9,自身并不带netcat需要自行下载,甚是头疼。CentOS 6.x 系统中默认没有安装,经过测试,如果通过 yum 直接安装,运行时会有 “nc: Protocol not available” 的错误,需要下载较低版本的 nc 才能正常使用。我们选择 Netcat 0.6.1 版本,在终端中运行如下命令进行安装:

2023-04-27 23:10:41 277

原创 HBase的集群部署

Spark是遥远东方的一个游士,与其说是一位游士,不如称其为一个侠客,一位万花丛中过,片叶不沾身的风流侠者。spark来无影、去无踪,在他心里不知道方向在哪儿,也不清楚在他心里,谁才是他真正的方向。他也曾经拥有一位柔情似水的姑娘,名曰Hive,他们也曾恩爱,或许现在也很恩爱,但毕竟spark多情于世,所到之处,遍地温柔。雨,是暮春的雨;夜,是孤独的夜。spark只身一人来到了分布式数据库,遇到了他曾经畅想过却又未曾相见过的女孩儿——hbase。

2023-04-22 21:57:53 367 5

原创 Hive分区之再述分区(增删改查)

大数据时代,就是我们现在生存的时代,我们的每一点一滴、一举一动如何能逃脱得出数据的束缚。有不少豪杰侠士引领着我们走向hive江湖,五大帮派与六大派别的利益纷争不断,战火不断蔓延,出于对整个数码武林的公平正义,少林(分区)和武当(分桶)受广大码农相邀,主持公道。今天让我们看看少林是如何用十八般武艺征服整个江湖。`提示:此文章仅代表张医师个人观点。

2023-04-20 17:59:00 311

原创 Hive分区表—hive江湖

书接上回,上回书说到六大门派(数据导出)相继树立门户在数码武林之中,门派愈多,冲突愈多。为了主持hive江湖门派之间的利益与纷争,少林派(分区表)与武当派(分桶表)应邀各大门派推举,惩恶扬善,主持公道。作为hive江湖中“泰山北斗”的名门正派,本着为天地立心,为生民立命的理念,让我们整个数码武林终于达成一个相对平衡的状态。而且分区表的增、删、改、查、函数定义十八般武艺样样精通,可谓天下武功出少林,大数据管理更是离不开我们的分区表,码农们通过分区表大大的减少了时间的花费,优化方案,重塑大数据世界的荣光。

2023-04-16 20:52:41 79 1

原创 Hive数据导出

书接上回,传闻昔日数据导入有五大派别,一时之间数码武林局势动荡,可怜的码农处于水深火热之中。乱世出英雄,打着劫富济贫,替天行道大旗的六大帮派(数据导出)横空出世。提示:以下是本篇文章正文内容,下面案例可供参考六大派别与五大帮派共同统治着数码武林,侠义精神深入人心,hive语句妇孺皆知。街头小巷上谈论着他们的英雄事迹,再一次掀起了学习hive秘籍的狂潮。或许现在人们学习的已经不再是傍身之计,更多的是对天下武功,为快不灭的热爱。有人的地方就会就有江湖,大数据时代亦是如此。

2023-04-13 21:32:16 1444

原创 DataFrame与Dataset基础

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考Spark SQL使用的数据抽象并非是RDD,而是DataFrame。在spark中,DataFrame是一种以RDD为基础的分布式数据集,可以与RDD相互转换。DataFrame的结构类似与传统数据库的二维表格,并且可以从很多数据源中创建,如结构化文件、外部数据库、hive表等数据源。Dataset从1.6版本引入的一个新的数据抽象结构。

2023-04-11 13:30:20 274 1

原创 Hive中load加载数据

例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考五大门派各有千秋,其中最常见的便是load和insert,load加载的是文件,insert从其他表通过查询导入。

2023-04-09 17:11:15 428 1

hbase-1.2.1

适合jdk1.8 hadoop2.7.4 zookeeper3.4.1

2023-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除