![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据分析计算
文章平均质量分 91
大数据相关代码学习
bigdata7
Java学习
展开
-
Spark的基础编程
Spark的基础编程Spark的一些基本概念1.RDD:弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限的共享内容模型,即RDD是只读的记录分区的集合,只能基于稳定的物理存储中的数据集来创建RDD,或者通过其它RDD上执行确定的转换操作(如map,join,group by)来创建,这些限制使得实现容错的开销很低。一个RDD 就是一个分布式对象集合,作为数据结构,RDD本质上是一个只读的分区记录集合,每个RDD可以分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以保原创 2022-01-12 18:25:15 · 1484 阅读 · 0 评论 -
利用MapReduce的思想用Hive做词频统计
利用MapReduce的思想用Hive做词频统计1.打开hadoop与hivestart-dfs.sh 或者 start-all.shqive或者进到hive安装目录的bin下再输入hive2.在hive shell下面先建立数据库WordCount ,然后查询建立是否成功。create database WordCount;show databases;3.打开WordCount数据库,建立表txt来存放文档。并从hdfs的input目录下导入文本文件。【一般英文比较好一点,中文要转码原创 2020-11-22 21:24:00 · 508 阅读 · 0 评论