大数据
文章平均质量分 92
研究生期间没有任何方向 不存在PUA 不存在导师压迫
完全放养。。。。。
记录和分享一些学习大数据的知识
Mr_VanGogha
这个作者很懒,什么都没留下…
展开
-
大数据-Spark基础-Wordount
需求1.将PDF文件放入txt文件中,并上传到HDFS上2.进入spark-shell 统计行数3.统计单词出现的次数 并输出到HDFS的a.txt中使用filter函数去除常见的标记符号及数字1.开启hadoop,并把文件上传到HDFShadoop fs -put a.txt /1.进入spark-shell中(1)读取上传到hdfs文件,返回所有的行数val distFile = sc.textFile("hdfs//ove:9000/a.txt")(2)把行数扁平化,并以"原创 2020-12-10 17:50:52 · 245 阅读 · 0 评论 -
大数据-Spark本地local安装
Spark本地安装本地安装可以直接解压并运行1.下载Spark压缩包本次使用Spark3.0.0链接: https://archive.apache.org/dist/spark/spark-3.0.0/.2.解压Spark压缩包tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz2.进入spark-shell(/home/hadoop/spark-3.0.0-bin-hadoop3.2)bin/spark-shell.sh3.进入spark-scala交原创 2020-12-09 16:40:12 · 115 阅读 · 0 评论 -
大数据-Hadoop伪分布式安装
一、Hadoop安装方式1.Local (Standalone) Mode单机安装方式,如果不进行配置,这是Hadoop的默认方式,作为一个单独的Java运行。适合于本地调试程序。不需要对配置文件进行修改使用本地文件系统,而不是HDFS2.Pseudo-Distributed Mode伪分布式安装方式在一台机器上模拟多主机运行状态。Hadoop会启动NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager节点,但是在一原创 2020-12-09 15:44:20 · 273 阅读 · 0 评论