大数据(Spark/Hive/Map Reduce)
文章平均质量分 84
大数据学习笔记。包括安装、实战。
bluesnail95
不以物喜,不以己悲。
展开
-
HIve的安装
1 hadoophive的使用依赖hadoop,所以先介绍hadoop。1.1 hadoop下载和安装笔者是在Centos7.3上安装的hadoop,使用的是hadoop-3.2的版本。直接按照hadoop-2.9文档安装即可。hadoop下载地址1.2 设置hadoop的环境变量hadoop的环境变量一定要设置,不然...原创 2019-08-17 00:00:00 · 98 阅读 · 0 评论 -
MapReduce设计模式之连接模式和元模式
连接模式reduce端连接应用场景通过外键将多个数据集连接起来。包括内连接,左外连接,右外连接,全外连接,反外连接(全外连接-内连接)。代码实现import com.alibaba.fastjson.JSONObject;import filtering.BloomFilterUtil;import org.apac...原创 2019-08-04 00:00:00 · 260 阅读 · 0 评论 -
MapReduce设计模式之过滤模式
过滤模式过滤(正则过滤和随机抽样)应用场景可以从一个大的数据集中筛选出具有某些特征的小的数据集。代码实现在Mapper阶段,用正则表达式对值进行过滤。在Ruducer阶段,生成double类型的随机数,判断是否小于给定的数进行模拟简单的随机取样。import org.apache.hadoop.conf.Configu...原创 2019-07-25 00:00:00 · 444 阅读 · 0 评论 -
Hadoop的搭建和第一个Hadoop小项目:单词计数
Hadoop的搭建我自己是在windows10上搭建的hadoop。参考资料如下:1.hadoop详细安装及配置2.winutils下载3.hadoop3.0.3下载4hadoop启动报错java.lang.NoClassDefFoundError:/org/apache/hadoop/yarn/server/time...原创 2019-07-13 00:00:00 · 341 阅读 · 0 评论 -
MapReduce设计模式
什么是MapReduce?什么是MapReduce设计模式?是使用MapReduce模式解决数据处理问题的通用解决模板。学习资料https://github.com/chubbyjian...《MapReduce设计模式》 ...原创 2019-09-14 00:00:00 · 175 阅读 · 1 评论 -
MapReduce设计模式之概要设计模式
什么是概要设计模式概要分析师将相似数据分组到一起并执行类似统计计算、索引生成或简单计数等后续的分析操作。概要设计模式有哪些分类?(1)数值概要 (2)倒排索引概要 (3)计数器计数等等。数值概要包括最大值、最小值、平均数、方差和中位数等等。注意:MapReduce的内容结果输出,如果父文件夹已经存在,会报文件已存在错误...原创 2019-07-18 00:00:00 · 244 阅读 · 0 评论 -
MapReduce设计模式之数据组织模式
分层结构模式应用场景将基于行的数据转化成分层格式,如JSON。可以用在文章和评论的关系上等等。代码实现import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject...原创 2019-07-27 00:00:00 · 206 阅读 · 0 评论 -
Spark学习笔记(二):Spark基础操作
Spark Transformation操作 懒方法 基础操作原创 2022-08-28 20:39:32 · 874 阅读 · 0 评论 -
Spark学习笔记(三):使用Java调用Spark集群
基于Java连接Spark集群原创 2022-09-11 22:46:28 · 24624 阅读 · 0 评论 -
Spark学习笔记(一):基于Kubernetes安装Spark
基于Kubernetes安装Spark的学习笔记,记录自己遇到的一些问题和解决方法。原创 2022-08-25 22:13:49 · 1185 阅读 · 0 评论