- 博客(2)
- 收藏
- 关注
原创 RDD编程初级实践
RDD编程初级实践文章目录RDD编程初级实践spark的特点一、数据来源、环境介绍二、实验步骤1.将文件弄到虚拟机里2.配置pyspark环境3.数据处理过程与结果(1)处理data.txt文件(2)合并A.txt,B.txt数据集(3)求Algorithm.txt; Database.txt; Python.txt平均数总结spark的特点1.快:与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上;而基于磁盘的运算也要快10倍以上。Spark实现了高效的DAG执行引
2021-06-07 09:33:46 909 1
原创 Ubuntu Kylin中在Hadoop的环境下对各个单词出现次数进行统计
Ubuntu Kylin中在Hadoop的环境下对各个单词出现次数进行统计安装Ubuntu创建hadoop环境更新apt安装Java环境安装Hadoop安装Eclipse调用MapReduce执行WordCount对单词进行计数在 Eclipse 中创建 MapReduce 项目进行WordCount,输出结果,保存到本地参考文献安装Ubuntu这里贴一个ubuntu的官方网站链接,可以下载到ubuntu 16.04的iso文件https://wiki.ubuntu.com/XenialXerus/R
2020-12-24 17:00:52 285 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人