自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Friend Recommendation - 好友推荐

这个人叫 world ,他有三个好友,分别是:hadoop、hello 和 hive。word 与 hadoop 、 hello 、hive 属于直接好友。特别说明:(world_tom,2) 与 (tom_world,2) 属于同一数据,请使用 hashcode 来排列用户 world 与 用户 tom 的前后顺序。参考数据说明:以 (world_tom,2) 为例,用户 world 与用户 tom 在间接好友关系中出现的次数为 2。完成统计间接好友的数量的程序,输出结果按照间接好友字符串升序排列。

2024-11-07 14:00:39 113

原创 hbase

在HBase中创建表mytable,列为data,并在列族data中添加三行数据:行号分别为:row1,row2,row3;(行键)列名分别为:data:1,data:2,data:3;值分别为:zhangsan,zhangsanfeng,zhangwuji张无忌。

2024-11-07 13:53:38 304

原创 HDFS常用命令

上表列出了Hadoop常用的shell命令,在之后使用的时候可以作为参考。

2024-11-07 13:36:53 206

原创 sparkRDD

RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark 中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。简单的来说RDD就是一个集合,一个将集合中数据存储在不同机器上的集合。一个Partitioner,即RDD的分片函数。

2024-11-06 21:51:45 797

原创 MapReduce

MapReduce是一种可用于数据处理的编程模型,我们现在设想一个场景,你接到一个任务,任务是:挖掘分析我国气象中心近年来的数据日志,该数据日志大小有3T,让你分析计算出每一年的最高气温,如果你现在只有一台计算机,如何处理呢?我想你应该会读取这些数据,并且将读取到的数据与目前的最大气温值进行比较。比较完所有的数据之后就可以得出最高气温了。不过以我们的经验都知道要处理这么多数据肯定是非常耗时的。如果我现在给你三台机器,你会如何处理呢?

2024-11-06 21:17:27 729

原创 sparkSQL

encode(value: Column, charset: String) 转码,charset支持 'US-ASCII','ISO-8859-1','UTF-8','UTF-16BE','UTF-16LE','UTF-16'例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。

2024-11-06 12:09:45 849

原创 C ++基础入门

c++基础语法部分,简单易懂

2024-02-01 11:01:26 850 1

大数据ppt,内容详细,适合初学者

大数据ppt,内容详细,适合初学者

2024-11-06

网络工程师考试大纲-希赛网.pdf

网络工程师考试大纲-希赛网.pdf

2024-09-03

24年软考网络工程师备考资料.zip

24年软考网络工程师备考资料.zip

2024-09-03

Dev-Cpp 6.2.zip

本文章c++所用软件,下载非常简单亲民

2024-02-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除