痞老板很痞老板-CSDN博客

原创 Friend Recommendation - 好友推荐

这个人叫 world ，他有三个好友，分别是：hadoop、hello 和 hive。word 与 hadoop 、 hello 、hive 属于直接好友。特别说明：(world_tom,2) 与 (tom_world,2) 属于同一数据，请使用 hashcode 来排列用户 world 与用户 tom 的前后顺序。参考数据说明：以 (world_tom,2) 为例，用户 world 与用户 tom 在间接好友关系中出现的次数为 2。完成统计间接好友的数量的程序,输出结果按照间接好友字符串升序排列。

2024-11-07 14:00:39 113

原创 hbase

在HBase中创建表mytable，列为data，并在列族data中添加三行数据：行号分别为：row1，row2，row3；（行键）列名分别为：data:1，data:2，data:3；值分别为：zhangsan，zhangsanfeng，zhangwuji张无忌。

2024-11-07 13:53:38 304

原创 HDFS常用命令

上表列出了Hadoop常用的shell命令，在之后使用的时候可以作为参考。

2024-11-07 13:36:53 206

原创 sparkRDD

RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark 中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。简单的来说RDD就是一个集合，一个将集合中数据存储在不同机器上的集合。一个Partitioner，即RDD的分片函数。

2024-11-06 21:51:45 797

原创 MapReduce

MapReduce是一种可用于数据处理的编程模型，我们现在设想一个场景，你接到一个任务，任务是：挖掘分析我国气象中心近年来的数据日志，该数据日志大小有3T,让你分析计算出每一年的最高气温，如果你现在只有一台计算机，如何处理呢？我想你应该会读取这些数据，并且将读取到的数据与目前的最大气温值进行比较。比较完所有的数据之后就可以得出最高气温了。不过以我们的经验都知道要处理这么多数据肯定是非常耗时的。如果我现在给你三台机器，你会如何处理呢？

2024-11-06 21:17:27 729

原创 sparkSQL

encode(value: Column, charset: String) 转码，charset支持 'US-ASCII'，'ISO-8859-1'，'UTF-8'，'UTF-16BE'，'UTF-16LE'，'UTF-16'例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。

2024-11-06 12:09:45 849

原创 C ++基础入门

c++基础语法部分，简单易懂

2024-02-01 11:01:26 850 1

大数据ppt，内容详细，适合初学者

2024-11-06

网络工程师考试大纲-希赛网.pdf

2024-09-03

24年软考网络工程师备考资料.zip

2024-09-03

Dev-Cpp 6.2.zip

本文章c++所用软件，下载非常简单亲民

2024-02-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人