spark
文章平均质量分 80
Hadoop_Liang
这个作者很懒,什么都没留下…
展开
-
Windows10下Scala2.12的开发环境搭建
前提条件Windows10JDK8Maven3.6IDEA2020.3步骤1.下载并安装scala2.12.13下载地址:https://www.scala-lang.org/download/2.12.13.html下载文件:scala-2.12.13.msi安装:下载msi文件,直接下一步安装,修改安装位置后,下一步至finish.验证:进入cmd,执行scala,正常可看到Scala版本号输出并进入scala命令行。C:\Users\Administ.原创 2021-02-04 23:09:48 · 2182 阅读 · 2 评论 -
pycharm运行错误问题汇总
1.no module named numpyFile-->Settings-->Project:xxx-->project Interpreter--> 点击右侧的"+"-->输入numpy-->选择对应可安装的numpy-->Install Package-->等待一会安装成功总结:这里是一个通用的解决办法,如果报错不是numpy,而是p...原创 2019-05-27 21:50:52 · 6071 阅读 · 0 评论 -
Multiple versions of Spark are installed but SPARK_MAJOR_VERSION is not set问题
使用spark-submit提交应用时,出现如下问题:Multiple versions of Spark are installed but SPARK_MAJOR_VERSION is not set Spark1 will be picked by default那么Spark存在多个版本时,默认使用Spark1.x$ spark-submit --versionMulti...原创 2019-05-27 20:32:05 · 963 阅读 · 0 评论 -
PySpark机器学习案例--分类与聚类
案例一:基于逻辑回归算法的机器学习(分类)要求:text含有“spark”的 lable 标记为1,否则标记为0 训练数据集:# 训练数据id text label0 "a b c d e spark" 1.01 "b d" 0.02 "spark f g h" 1.03 "hadoop mapreduce" 0.0 测试数据集:# 测试数据...原创 2019-05-20 06:57:05 · 4470 阅读 · 1 评论 -
windows pycharm导入本地pyspark包
背景:用pycharm建立pyspark应用程序时,需要先下载安装pyspark包,一般网络好时可以用File-->Settings-->Project:xxx-->Project Interpreter-->点击“+”-->搜索pyspark-->Install Package来安装pyspark但是,为了让网络不好的同学也能愉快的体验pyspar...原创 2019-05-06 13:45:29 · 3676 阅读 · 7 评论 -
Spark Streaming WordCount实验
本实验完成利用Spark Streaming来完成对多种数据流的单词统计1. 通过Spark Streaming完成对文件系统流数据的词频统计1.1监听Linux本地目录流数据的词频统计开Linux终端,进入pyspark命令行,逐行输入以下代码from pyspark.streaming import StreamingContext #导入SparkStreamin...原创 2019-05-06 08:20:41 · 3276 阅读 · 0 评论 -
PySpark RDD操作
前提条件:1、拥有Ubuntu16.04环境2、Ubuntu下安装好Spark和PySpark题目一:RDD创建首先进入pyspark命令行$ pyspark(1)从文件中加载从本地文件创建RDD>>> lines = sc.textFile("file:///home/hadoop/data.txt")>>> l...原创 2019-03-11 20:42:52 · 4389 阅读 · 0 评论 -
Spark入门程序--PySpark WordCount
前提条件:1、拥有Ubuntu16.04环境2、Python3环境(一般Ubuntu自带得有)3、Ubuntu下安装好Spark和PySpark步骤:一、PySpark命令行1、数据准备打开终端,新建一个文件 data.txt$ nano data.txt内容如下:Hello worldHello hadoopHello sparkmy ...原创 2019-03-08 21:16:41 · 3930 阅读 · 0 评论 -
执行pyspark报错env: ‘python’: No such file or directory问题
前提条件:Ubuntu16.04环境安装好Spark2.x,并配置好环境变量安装好python3问题:执行pyspark脚本报错$ pysparkpyspark: line 45: python: command not foundenv: ‘python’: No such file or directory原因:因为没有配置Spark pytho...原创 2019-03-01 21:56:16 · 11691 阅读 · 3 评论 -
Spark伪分布式环境搭建
这里选择Scala-2.11.12.tgz+ spark-2.3.2-bin-hadoop2.7.tgz前提条件:Ubuntu16.04JDK1.8(Ubuntu环境下)安装步骤:1.下载安装包:http://archive.apache.org/dist/spark/spark-2.3.2/2.解压安装文件$ mkdir ~/soft...原创 2019-02-25 23:57:57 · 5218 阅读 · 3 评论