- 博客(7)
- 收藏
- 关注
原创 Friend Recommendation - 好友推荐
这个人叫 world ,他有三个好友,分别是:hadoop、hello 和 hive。word 与 hadoop 、 hello 、hive 属于直接好友。特别说明:(world_tom,2) 与 (tom_world,2) 属于同一数据,请使用 hashcode 来排列用户 world 与 用户 tom 的前后顺序。参考数据说明:以 (world_tom,2) 为例,用户 world 与用户 tom 在间接好友关系中出现的次数为 2。完成统计间接好友的数量的程序,输出结果按照间接好友字符串升序排列。
2024-11-07 14:00:39 113
原创 hbase
在HBase中创建表mytable,列为data,并在列族data中添加三行数据:行号分别为:row1,row2,row3;(行键)列名分别为:data:1,data:2,data:3;值分别为:zhangsan,zhangsanfeng,zhangwuji张无忌。
2024-11-07 13:53:38 304
原创 sparkRDD
RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark 中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。简单的来说RDD就是一个集合,一个将集合中数据存储在不同机器上的集合。一个Partitioner,即RDD的分片函数。
2024-11-06 21:51:45 797
原创 MapReduce
MapReduce是一种可用于数据处理的编程模型,我们现在设想一个场景,你接到一个任务,任务是:挖掘分析我国气象中心近年来的数据日志,该数据日志大小有3T,让你分析计算出每一年的最高气温,如果你现在只有一台计算机,如何处理呢?我想你应该会读取这些数据,并且将读取到的数据与目前的最大气温值进行比较。比较完所有的数据之后就可以得出最高气温了。不过以我们的经验都知道要处理这么多数据肯定是非常耗时的。如果我现在给你三台机器,你会如何处理呢?
2024-11-06 21:17:27 729
原创 sparkSQL
encode(value: Column, charset: String) 转码,charset支持 'US-ASCII','ISO-8859-1','UTF-8','UTF-16BE','UTF-16LE','UTF-16'例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。
2024-11-06 12:09:45 849
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人