虚拟机+大数据
pyswt
这个作者很懒,什么都没留下…
展开
-
python+sparkStreaming+kafka之大数据实时流
首先需要的是环境,我安装的是spark2…1,kafka0-10,hadoop2.7,scala2.11,因为spark是Scala语言写的,所以这个必须的安装,大数据传输存储需要用到Hadoop,HDFS,所以Hadoop需要安装,streaming接受流数据源有两种大的方式,一种是文件和套接字,直接读取文件和通过套接字传输,另一种是高级API形式,可以通过额外的实用程序类获得诸如Kafka,F...原创 2019-12-23 16:31:20 · 2056 阅读 · 0 评论 -
pyspark之RDD,Data Frame,SQL Context 转换与操作
# 加载数据Path='file:/home/swt/pythonwork/PythonProject/'RawUserRDD = sc.textFile(Path+'data/u.user')RawUserRDD.count()# 查看RDD数据RawUserRDD.take(5)['1|24|M|technician|85711', '2|53|F|other|94043',...原创 2019-12-18 11:12:43 · 1207 阅读 · 0 评论 -
pyspark之LogisticRegression算法
import sysimport timeimport pandas as pdimport matplotlib.pyplot as pltfrom pyspark import SparkConf,SparkContextfrom pyspark.mllib.classification import LogisticRegressionWithSGDfrom pyspark.ml...原创 2019-12-17 11:48:55 · 733 阅读 · 0 评论 -
pyspark之二分类决策树算法
# 首先还是设定数据目录,取决于你的pyspark是什么方式启动的global Pathif sc.master[0:5] == 'local': Path = 'file:/home/swt/pythonwork/PythonProject/'else: Path = "hdfs://localhost:9000/user/swt/"import numpy as np...原创 2019-12-17 11:29:17 · 1273 阅读 · 0 评论 -
pyspark运行ALS推荐算法
首先创建读取路径,这个取决于你的pyspark是以什么方式启动的global Pathif sc.master[0:5] == 'local': Path='file:/home/swt/pythonwork/PythonProject/'else: Path="hdfs://ubuntu:9000/user/swt/"我是本地启动sc.master'local[*]...原创 2019-12-16 12:30:40 · 1687 阅读 · 0 评论 -
pyspark RDD基本操作
RDD转换运算# 创建intRDDintRDD = sc.parallelize([3,1,2,5,5,6])intRDD.collect()[3, 1, 2, 5, 5, 6]# 创建stringRDDstringRDD = sc.parallelize(['apple','pen','banana'])stringRDD.collect()['apple', 'pen',...原创 2019-12-13 18:11:42 · 321 阅读 · 0 评论 -
Linux安装kafka,flink并运行word count.py测试demo
Linux上安装kafka与flink非常简单(前提需要Java环境),首先到官网下载压缩包,kafka官网选择适合自己的tgz包,下载完可以放到usr/local/下(我的放到这个目录下,可以根据自己的情况),之后进行解压缩tar -xzvf 压缩包.tgz然后进入解压目录启动zookeeper,(因为现在安装kafka无需安装zookeeper,kafka自带)bin/zookeep...原创 2019-11-21 15:55:25 · 644 阅读 · 0 评论 -
基于python+spark环境下的虚拟机中安装Java
虚拟机下安装Java环境,首先得先下载jdk压缩包,这个可以到官网上下载,在这里就不再阐述了。下一步就是把下载下来的压缩包移动到虚拟机下,建议直接移动到home/用户名/ 目录下,也就是终端打开之后默认目录,然后就是解压,命令是我下载的是jdk-8u101-linux-x64.tar.gz这个版本,可以根据个人需求下载sudo tar -zxvf jdk-8u101-linux-x64...原创 2019-01-03 11:05:27 · 361 阅读 · 0 评论 -
虚拟机安装单机python+spark环境
python环境Linux系统是自带的,你可以输入python来查看版本(python2版本),输入python3(python3版本)查看。spark安装前提是要下载压缩包,根据个人需求在官网下载压缩包,放到虚拟机得 /home/用户 目录下(我下的是spark-2.1.1-bin-hadoop2.7.tgz这个包)然后开始解压tar -xzvf spark-2.1.1-bin-hadoo...原创 2019-01-03 17:14:41 · 1019 阅读 · 1 评论