spark
文章平均质量分 59
PsG庞士冠
大三学生,菜鸡一名
展开
-
搭建完全分布式平台以及在spark下实现K-Means算法时遇到的问题
上周五终于完成了第一次数据挖掘大作业的答辩,周末又去参加了蓝桥杯,一直没有时间整理遇到的问题,直到今天才闲下来。尽量把遇到的问题都能记录下来,日后便于自己回看。主要分三个部分:Centos7的基本配置、Hadoop+Spark的配置、K-Means算法的实现。一、Centos7的基本配置 1、不能连接上外网解决方法:最便捷的方法是把虚拟机的ip地址改为动态ip,再把连接方式...原创 2018-04-02 21:10:42 · 2363 阅读 · 1 评论 -
配置idea的pom.xml文件遇到的问题
今天在配置idea的pom.xml时遇到了一些问题提示我dependency 'org.apache.spark:spark-core_2.1.4:2.1.0 'not found 我就奇怪了,因为我的版本就是spark2.1.0、scala版本就是2.1.4 ,为什么会提示错误呢?我打开了我的spark文件夹,找一下这个jar包,发现版本果然有问题于是把中scala.version改为2.11就...原创 2018-04-03 15:26:06 · 3284 阅读 · 0 评论 -
CentOS7+Hapdoop2.8+spark2.1完全分布式平台的搭建经历
写在前面个人心得与经验:1、关于全分布和伪分布的区别:全分布是指在不同物理主机上搭建平台。伪分布是指一台物理主机中有多台虚拟机,这些虚拟机搭建的平台就是伪分布式平台。2、关于平台版本选择:尽量选择成熟的版本,不要太旧也不要选择最新版本的。版本太旧会出现一些异常,可能是它平台本身存在的问题,也可能会出现与现在的一些主流框架不兼容的情况。最新版本的话会在配置文件上有所不同,网上搜到的资料不也是特别多,...原创 2018-03-29 01:16:06 · 728 阅读 · 0 评论