Spark
蛋炒双黄蛋
这个作者很懒,什么都没留下…
展开
-
Spark知识点2
The Apache Hadoop project devolops open-source software for reliable, scalale, distributed computing.可靠、大规模、分布式计算和开源!要想学习Spark必定是绕不过Hadoop的,MapReduce和HDFS构成Hadoop的主要内容,MapReduce用来处理(processing),HDFS用来存储(storage)。Hadoop要求数据应均匀分布在各个机器上,快速写入磁盘(步步为营)——而这就.原创 2021-03-25 16:57:16 · 243 阅读 · 1 评论 -
Spark基础知识点
分布式文件系统(Hadoop Distributed File System)当数据集达到一定规模,单机无法处理把数据分布到各个独立的机器上(多机器共同协作)网络HDFS优缺点优点:构建在廉价的机器上使用大数据处理高容错硬件错误流式数据访问大规模数据集简单的一致性模型(一次写入,多次读取)适合批处理,移动计算而不是数据缺点不适合低延迟数据访问不适合小文件存储数据库Orale数据库Orale RAC集群,一台数据库,多个实例。Orale Exadata 硬件原创 2021-03-25 16:37:38 · 56 阅读 · 0 评论 -
Spark——java.io.IOException: Cannot run program “python3“: CreateProcess error=2, 系统找不到指定的文件。
当我在搭载Spark环境后,可以cmd中使用Scala正常运行wordcount。但在cmd输入pyspark后,虽然可以执行创建简单的rdd,但就是执行不了,会遇到java.io.IOException: Cannot run program "python3": CreateProcess error=2, 系统找不到指定的文件错误。上面显示我找不到python3,在网上找了好多,说是Anaconda要配置python.exe坏境。当我按照网上在环境中配置,但还是显示上面的错误。突然想到我缺的是p原创 2021-03-24 23:22:23 · 6442 阅读 · 21 评论