![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
11号的乔乔
这个作者很懒,什么都没留下…
展开
-
决策树分类红酒数据的pyspark.ml的pipeline
数据地址:http://archive.ics.uci.edu/ml/datasets/Winefrom pyspark.ml.classification import DecisionTreeClassificationModelfrom pyspark.ml.classification import DecisionTreeClassifierfrom pyspark.ml import Pipeline,PipelineModelfrom pyspark.ml.evaluation imp原创 2021-04-13 19:40:13 · 374 阅读 · 0 评论 -
Spark求TOP值
本题为林子雨老师的课件中的一道题,现在写在这里,主要是记录一下自己的踩坑经历,顺带加深一下对数据预处理的映像,数据预处理至关重要,一定不能疏忽。原题目:这道题首先第一个点,这是两个文件,所以可以把这两个文件放在一个文件夹下,用sc.textFile()读文件的时候,直接读取文件夹,这样就可以把两个文件一起读进去。我在第一次尝试的时候,写的代码如下:from pyspark import SparkConf, SparkContextconf = SparkConf().setMaster("lo原创 2021-04-12 15:25:17 · 1550 阅读 · 0 评论 -
Input path does not exist: hdfs://localhost:9000/usr/hadoop/word.txt
最近在学习Spark读取HDFS上面的数据,执行代码:textFile = sc.textFile("hdfs://localhost:9000/usr/local/hadoop/word.txt")遇到标题上的错误:Input path does not exist: hdfs://localhost:9000/usr/local/hadoop/word.txt作者第一次学习Spark,对本地(local)读取和HDFS读取并不是太懂,折腾了半天,找了很多解答,也还是没有解决这个问题。还好舍友厉原创 2021-04-10 15:16:57 · 15027 阅读 · 4 评论 -
Call From ubuntu/127.0.1.1 to localhost:9000 failed on connection exception
我是在使用Spark读取HDFS的时候遇到这个问题的,通过查阅网上资料,结合自己的学习,写一下自己是怎么解决的。网上大多的部分资料都是NameNode没有启动,但是我查了一下我的系统,NameNode已经启动,但是DataNode没有启动。结合林子雨老师的学习资料(Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04)),写一下DataNode怎么启动。若是 DataNode 没有启动,可尝试如下的方法(注意这会删除 HDFS 中原有的所有数原创 2021-04-08 21:40:23 · 6944 阅读 · 2 评论