自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

停止的闹钟博客

学习分享

  • 博客(28)
  • 收藏
  • 关注

原创 Python Spark创建推荐引擎 (4) 学习笔记十二

12.12创建Recommend.py12.12.1创建Recommend.py(1)右键单击PythonProduct,出现快捷菜单,依次选择New->File,打开New File对话框,输入“Recommendpy”,单击Finish。12.12.2main主程序代码if name == “main”:if len(sys.argv) != 3:print(“请输入2个参...

2019-08-16 19:50:03 244

原创 Python Spark创建推荐引擎 (3) 学习笔记十二

12.10创建Recommend项目这里我们将建立Recommend推荐系统,系统有2个程序,说明如下·RecommendTrain.py(1)数据准备阶段读取u.data,经过处理后产生评分数据ratingsRDD(2)训练阶段评分数据ratingsRDD经过ALS.train训练后产生Model(3)存储模型存储模型Model在本地货HDFS中,作为后续推荐使用。·Recom...

2019-08-16 19:35:35 274

原创 Python Spark创建推荐引擎(2)学习笔记十二

12.6如何训练数据ALS训练数据格式是RatingRDD数据类型12.6.1配置文件读取路径以上程序判断·如果sc.master[0:5]是“local”,代表当前本地运行,读取文本文件。·sc.master[0:5]不是是“local”,就有可能是YARN client或者Spark Stand Alone,必须读取HDFS文件。12.6.2导入-100k数据我们使用sc.t...

2019-08-16 17:48:23 329

原创 Python Spark创建推荐引擎(1)学习笔记十二

12.1推荐算法介绍推荐引擎是最常见的机器学习应用。我们可以在各大购物网站看见这方面的应用。Spark MLlib支持ALS(Alternating Least Squares)推荐算法,是机器学习的协同过滤推荐算法。机器学习的协同过滤推荐算法通过观察所有用户给产品的评价来推断每个用户的喜好,并向用户推荐适合的多个产品,也可以把某一产品推荐给多个用户。协同过滤推荐的优缺点优点缺点...

2019-08-16 17:23:07 187

原创 Python Spark的集成开发环境 (5)学习笔记十一

11.16在eclipse运行spark-submit YARN-client11.16.1设置外部工具11.16.2复制外部工具11.16.3spark-submit TARN-client设置外部工具11.16.4spark-submit YARN-client 设置环境变量11.16.5新建HADOOP_CONF_DIR环境变量11.16.6运行外部工具11.16....

2019-08-16 16:19:54 90

原创 Python Spark的集成开发环境 (4)学习笔记十一

11.13在Hadoop YARN-client上运行WordCount程序介绍的是使用spark-submit在Hadoop Yarn上运行Wordcount程序11.13.1在Hadoop Yarn上运行Wordcount程序cd ~/pythonwork/PythonProjectHADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop spark-s...

2019-08-16 16:12:19 146

原创 Python Spark的集成开发环境 (3)学习笔记十一

11.8新建PyDev项目11.8.1依次选择File->New->Project11.8.2选择PyDev->PyDev Project11.8.3输入项目名称11.8.4已经创建的项目11.9加入WordCount.py程序11.9.1加入新程序11.9.2输入程序文件名11.10输入WordCount.py程序11.10.1导入相关链接库...

2019-08-16 15:12:50 145

原创 Python Spark的集成开发环境 (2)学习笔记十一

11.3设置字符串代替变量·SPARK_HOME=/usr/local/spark(Spark的安装路径)·HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop(Hadoop配置文件的路径)·PYSPARK_PYTHON=/home/hduser/ananconda2/bin/python(anaconda2链接库路径)11.3.1选择Window -...

2019-08-16 14:45:07 121

原创 Python Spark的集成开发环境 (1)学习笔记十一

我们介绍使用eclipse集成开发环境(IDE)来开发Spark应用程序。Spark Python集成开发环境的安装步骤:(1)下载与安装eclipse(Mars)(2)安装scala-ide-4.7.0(3)安装PyDev(4)设置字符串代替变量(5)PyDev设置Python链接库路径(6)PyDev设置anaconda2链接库路径(7)PyDev设置Spark Python链...

2019-08-16 14:12:07 165

原创 Python Spark RDD(WordCount)(4) 学习笔记十

10.12使用Spark创建WordCount10.12.1创建测试文件在“终端”输入下列命令#WordCount的数据目录mkdir -p ~/pythonwork/ipynotebook/data#切换至WordCount的数据目录cd ~/pythonwork/ipynotebook/data#编辑test.txtgedit test.txt输入下列内容10.12.2执...

2019-08-16 13:38:11 176

原创 Python Spark RDD (3) 学习笔记十

10.9 Broadcast广播变量共享变量可用于节省内存与运行时间,提升并行处理时的执行效率。共享变量包括Broadcast(广播变量)和accumulator(累加器)。10.9.1不使用Broadcast广播变量的范例。先创建水果编号与名称对照表,然后使用此对照表将水果编号转换为水果编号。#创建kvFruitkvFrult=sc.parallelize([(1,“apple”),(...

2019-08-16 13:28:56 176

原创 Python Spark RDD (2) 学习笔记十

10.6 RDD Key-Value基本“转换”运算SparkRDD支持键值(Key-Value)运算,Key-Value运算也是Map/Reduce的基础。10.6.1创建范例Key-ValueRDD#创建范例Key-ValueRDDkvRDD1=sc.parallelize([(3,4),(3,6),(5,6),(1,2)])kvRDD1.collect()#列出全部Keys值...

2019-08-16 13:13:17 124

原创 Python Spark RDD(1) 学习笔记十

Spark的核心是RDD(Resilient Distributed Dataset),即弹性分布式数据集,属于一种分布式的内存系统数据集应用。Spark的主要优势来自RDD本身的特性,RDD能与其他系统兼容,可以导入外部内存系统的数据集,例如HDFS、HBase或其他Hadoop数据源。10.1 RDD的特性10.1.1 RDD的3种基本运算。RDD运算内型说明“转换”...

2019-08-15 21:04:34 337

原创 在IPython Notebook运行Python Spark程序(2)学习笔记九

9.7使用IPython Notebook在Hadoop YARN-client模式运行9.7.1启动IPython Notebook运行在Hadoop YARN-client模式start-all.shcd ~/pythonwork/ipynotebookPYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS=“notebook”...

2019-08-15 18:05:48 225

原创 在IPython Notebook运行Python Spark程序 (1) 学习笔记九

安装Python最方便的方式是使用软件包来安装。安装Anaconda软件包时会同时安装很多软件包,包括IPython Notebook、NumPy、SciPy、Matplotlib。这几个使用与数据分析、科学计算上常用软件包。IPython Notebook具备交互式界面,我们可以在Web界面输入Python命令后立刻看到结果。我们还可以将数据分析的过程和运行后的命令与结果存储成笔记本,下次打开...

2019-08-15 17:27:14 227

原创 Python Spark的介绍与安装(2) 学习笔记八

8.5创建测试用的文本文件8.5.1复制LICENSE.txtcp /usr/local/hadoop/LICENSE.txt ~/wordcount/inputll ~/wordcount/input8.5.2启动所有虚拟服务器8.5.3进入master虚拟机,启动Hadoop Multi-Node Clusterstart-all.sh8.5.4上传测试文件HDFS目录ha...

2019-08-15 16:15:33 172

原创 Python Spark的介绍与安装(1) 学习笔记八

我们将介绍Spark2.0的安装,以及在pyspark“终端”程序界面执行Python Spark程序于本机、Hadoop YARN-client与Spark atand Alone模式。在Spark官网中,可以看到Spark的Cluster模式架构图,网址http://spark.apache.org/docs/latest/cluster-overview.htmlSpark的Clust...

2019-08-15 16:07:44 94

原创 Hadoop MapReduce(WordCount)学习笔记七

MapReduce是一种程序开发模式,可以使用大量服务器来并行处理。MapReduce,简单地说,Map就是分配工作,Reduce就是将工作结果汇总整理。·首先使用Map将待处理的数据分割成很多的小分数据,由每台服务器分别运行。再通过Reduce程序进行数据合并,最后汇总整理出结果。本章将以WordCount.java作为范例来介绍MapReduce。7.1简单介绍WordCount.jav...

2019-08-15 14:34:45 138

原创 Hadoop HDFS常用命令 学习笔记六

我们将介绍在“终端”程序中使用HDFS命令,对HDFS进行操作,以及Hadoop HDFS Web接口HDFS命令格式如下:hadoop fs -命令常见的HDFS命令表:命令说明hadoop fs -mkdir创建HDFS目录hadoop fs -ls列出HDFS目录hadoop fs -copyFromLocal使用-copyFromLocal复制...

2019-08-13 22:04:25 114

原创 Hadoop Multi Node Cluster的安装(2)学习笔记五

5.4复制data1服务器到data2、data3、master关于虚拟机内存设置,主要是由Host实体主机(PC或服务器)的内存大小来决定:如果物理内存是16GB,建议设置master:4GB,data1:2GB,data2:2GB,data3:2GB。如果物理内存是8GB,建议设置master:2GB,data1:1GB,data2:1GB,data3:1GB。如果虚拟机的内存总和超过...

2019-08-13 21:11:01 122

原创 Hadoop Multi Node Cluster的安装(1) 学习笔记五

我们将介绍如何安装多台机器的Hadoop集群(Hadoop Multi Node Cluster),以及Hadoop资源管理(ResourceManager)与NameNode HDFS Web界面。Hadoop Multi Node Cluster规划如图。有多台计算机组成:·由多台电脑組成: 有一台主要的电脑master,在HDFS担任NameNode(主节点)角色,在MapReduce2...

2019-08-13 20:17:27 156

原创 Hadoop Single Node Cluster的安装 学习笔记四

4.0Hadoop Single Node Cluster的安装Hadoop Single Node Cluster只以一台机器来建立Hadoop环境,我们仍然可以使用Hadoop命令,只是无法发挥使用多台机器的威力。安装步骤如下:1 安装JDK:因为Hadoop是使用Java开发的,所以必须先安装JDK2 设定 SSH 无密码登入:Hadoop必须通过SSH与本地计算机以及其他主机连接,所...

2019-08-13 17:47:09 96

原创 虚拟机 Ubuntu Linux操作系统的安装(2)学习笔记三

3.3启动Ubuntu3.3.1启动Ubuntu3.3.2输入密码3.4.1在Virtual Box菜单栏中点击“设备”安装增强功能。3.5.2运行Guest Additions CD光盘,点运行3.5.3输入密码3.5.4等到出现“Press Return to close this window”,代表安装完成。3.5.5关机3.5.6确认“关机”或“重新启动”,这里我...

2019-08-12 14:13:48 270

原创 虚拟机上 Ubuntu Linux操作系统的安装(1)学习笔记三

3.1 Ubuntu Linux操作系统的安装3.1.1Ubuntu 介绍Ubuntu是众多Linux操作系统版本中一种,除此之外,还有Fedora、Debian、Redhat、Centos。Ubuntu提供了GNOME桌面环境,是一种开放源码、功能强大而且免费的操作系统。3.1.1下载Ubuntu网站网址(https://ubuntu.com/download/alternative-d...

2019-08-12 13:51:44 65

原创 Virtual Box虚拟机软件的安装 学习笔记二

我将将介绍如何安装Virtual Box虚拟机软件安装,让你可以在Virtual Box上安装多台Linux虚拟机。2.1 Virtual Box的下载和安装关于virtual Box6.0.8的下载、安装及设置说明如下2.1.1virtual Box下载网站网站:https://www.virtualbox.org/wiki/Downloads,选择windows hosts2.1....

2019-08-11 17:18:25 232

原创 Python Spark 机器学习与Hadoop 大数据(2) 学习笔记一

1.7大数据定义大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特性可归纳为5V:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。特征:容量(Volume):数据...

2019-08-11 16:28:48 158

原创 Python Spark 机器学习与Hadoop 大数据(1)学习笔记一

Python Spark 机器学习与Hadoop 大数据1.1机器学习机器学习框架机器学习(Machine Learning):通过算法,和历史数据进行训练,产生得出模型。当有未知相匹配的数据时,我们可以通过模型进行一定程度上的预测。训练数据(监督学习)分为:Feature(数据特征)Label(数据标签,预测目标)机器学习分类:监督学习:有Feature,有Labul,无监督学习:有F...

2019-08-11 16:00:00 364

原创 Python Spark RDD (2) 学习笔记十

10.6 RDD Key-Value基本“转换”运算SparkRDD支持键值(Key-Value)运算,Key-Value运算也是Map/Reduce的基础。10.6.1创建范例Key-ValueRDD#创建范例Key-ValueRDDkvRDD1=sc.parallelize([(3,4),(3,6),(5,6),(1,2)])kvRDD1.collect()#列出全部Keys值k...

2019-08-17 20:51:40 128

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除